

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Utilizzo del modello Amazon Nova Sonic Speech-to-Speech
<a name="speech"></a>

**Nota**  
Questa documentazione è per Amazon Nova versione 1. Per la guida di Amazon Nova 2 Sonic, visita [Speech-to-Speech](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-conversational-speech.html).

Il modello Amazon Nova Sonic fornisce interazioni conversazionali in tempo reale tramite streaming audio bidirezionale. Amazon Nova Sonic elabora e risponde al contenuto vocale in tempo reale non appena si verifica, consentendo esperienze di conversazione naturali e simili a quelle umane.

Amazon Nova Sonic offre un approccio trasformativo all’intelligenza artificiale conversazionale con la sua architettura unificata di comprensione e generazione dei contenuti vocali. Questo modello state-of-the-art base vanta un rapporto prezzo/prestazioni ai vertici del settore e consente alle aziende di creare esperienze vocali naturali e contestualmente consapevoli. 

Funzionalità e caratteristiche chiave
+ State-of-the-art comprensione vocale in streaming con funzionalità API di streaming bidirezionali che consentono conversazioni a più turni in tempo reale e a bassa latenza.
+ Le esperienze di intelligenza artificiale conversazionale naturali e simili a quelle umane sono fornite con una ricchezza contestuale in tutte le lingue supportate.
+ Risposta vocale adattiva che regola dinamicamente la riproduzione in base alla prosodia del discorso di input.
+ Gestione agevole delle interruzioni degli utenti senza alterare il contesto della conversazione.
+ Contestualizzazione delle conoscenze con dati aziendali grazie alla generazione potenziata da recupero dati (RAG).
+ Chiamata di funzioni e supporto del flusso di lavoro agentico per la creazione di applicazioni di IA complesse.
+ Robustezza rispetto al rumore di fondo per scenari di implementazione reali.
+ Supporto multilingue con voci e stili di discorso espressivi. Sono disponibili voci espressive, sia maschili che femminili, in cinque lingue: inglese (Stati Uniti, Regno Unito), francese, italiano, tedesco e spagnolo.
+ Riconoscimento di diversi stili di conversazione in tutte le lingue supportate.

**Topics**
+ [Architettura di Amazon Nova Sonic](#speech-architecture)
+ [Utilizzo dell’API di streaming bidirezionale](speech-bidirection.md)
+ [Speech-to-speech Esempio](s2s-example.md)
+ [Esempi di codice per Amazon Nova Sonic](speech-code-examples.md)
+ [Gestione degli eventi di input con l’API bidirezionale](input-events.md)
+ [Gestione degli eventi di output con l’API bidirezionale](output-events.md)
+ [Voci disponibili per Amazon Nova Sonic](available-voices.md)
+ [Gestione degli errori con Amazon Nova Sonic](speech-errors.md)
+ [Utilizzo degli strumenti, RAG e flussi agentici con Amazon Nova Sonic](speech-tools.md)

## Architettura di Amazon Nova Sonic
<a name="speech-architecture"></a>

Amazon Nova Sonic implementa un’architettura basata sugli eventi tramite l’API di streaming bidirezionale, che consente esperienze di conversazione in tempo reale. Questi sono i principali componenti architettonici dell’API:

1. **Streaming di eventi bidirezionale**: Amazon Nova Sonic utilizza una connessione bidirezionale persistente che consente lo streaming simultaneo di eventi in entrambe le direzioni. A differenza degli schemi tradizionali di richiesta-risposta, questo approccio consente le seguenti funzionalità:
   + Streaming audio continuo dall’utente al modello
   + Elaborazione e generazione simultanea del contenuto vocale
   + Risposte dei modelli in tempo reale senza attendere le enunciazioni complete

1. **Flusso di comunicazione basato sugli eventi**: la completa interazione segue un protocollo basato sugli eventi in cui
   + Il client e il modello si scambiano eventi JSON strutturati
   + Gli eventi controllano il ciclo di vita della sessione, lo streaming audio, le risposte testuali e le interazioni con gli strumenti
   + Ogni evento dispone di ruoli specifici nel flusso della conversazione

L’API di streaming bidirezionale è composta da questi tre componenti principali:

1. **Inizializzazione della sessione**: il client stabilisce uno streaming bidirezionale e invia gli eventi di configurazione.

1. **Streaming audio**: l’audio dell’utente viene continuamente acquisito, codificato e trasmesso in streaming sotto forma di eventi al modello, che elabora continuamente il contenuto vocale.

1. **Streaming della risposta**: all’arrivo dell’audio, il modello invia simultaneamente le risposte agli eventi:
   + Trascrizioni testuali del parlato dell’utente (ASR)
   + Eventi di utilizzo dello strumento per la chiamata di funzioni
   + Risposta testuale del modello
   + Blocchi audio per l’output vocale

Il diagramma seguente fornisce una panoramica di alto livello dell’API di streaming bidirezionale.

![\[Diagramma che spiega il sistema di streaming bidirezionale di Amazon Nova Sonic.\]](http://docs.aws.amazon.com/it_it/nova/latest/userguide/images/nova-sonic-sequential.png)
