Speech-to-Speech (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic abilita l'intelligenza artificiale conversazionale in tempo reale con input e output vocali. La sezione seguente illustra le funzionalità avanzate per la creazione di assistenti vocali interattivi, l'automazione del servizio clienti e le applicazioni conversazionali.

Funzionalità principali

Amazon Nova 2 Sonic offre le seguenti funzionalità:

State-of-the-art comprensione vocale in streaming con API di streaming bidirezionale che consente conversazioni a più turni in tempo reale e a bassa latenza.
Supporto multilingue con rilevamento e cambio automatico della lingua. Sono disponibili voci espressive, comprese voci maschili e femminili, nelle seguenti lingue:
- Inglese (Stati Uniti, Regno Unito, India, Australia)
- Francese
- Italiano
- Tedesco
- Spagnolo
- Portoghese
- Hindi
Voci poliglotte in grado di parlare una qualsiasi delle lingue supportate per consentire un'esperienza utente coerente anche quando l'utente cambia lingua all'interno della stessa sessione.
Robustezza rispetto al rumore di fondo per scenari di implementazione nel mondo reale.
Robustezza a diversi accenti per le lingue supportate.
Esperienze di intelligenza artificiale conversazionale naturali e simili a quelle umane con ricchezza contestuale in tutte le lingue supportate.
Risposta vocale adattiva che regola dinamicamente la riproduzione in base alla prosodia del discorso di input.
Intervento intelligente che rileva quando gli utenti finiscono di parlare e quando l'assistente deve rispondere, creando un ritmo di dialogo naturale.
Gestione agevole delle interruzioni degli utenti senza alterare il contesto della conversazione.
Contestualizzazione delle conoscenze con dati aziendali grazie alla generazione potenziata da recupero dati (RAG).
Chiamata di funzioni e supporto del flusso di lavoro agentico per la creazione di applicazioni di IA complesse.
Gestione asincrona degli strumenti che esegue le chiamate agli strumenti mantenendo il flusso di conversazione, permettendo all'assistente di continuare a parlare mentre gli strumenti procedono in background.
Cross-modal supporto di input per input audio e di testo all'interno della stessa conversazione, che consente modelli di interazione flessibili.
Limite di connessione di 8 minuti, con rinnovo della connessione e schema di continuazione della sessione disponibili negli esempi di codice.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Comprensione multimodale

Nozioni di base