Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Speech-to-Speech (Amazon Nova 2 Sonic)
Amazon Nova 2 Sonic abilita l'intelligenza artificiale conversazionale in tempo reale con input e output vocali. La sezione seguente illustra le funzionalità avanzate per la creazione di assistenti vocali interattivi, l'automazione del servizio clienti e le applicazioni conversazionali.
Funzionalità principali
Amazon Nova 2 Sonic offre le seguenti funzionalità:
-
State-of-the-art comprensione vocale in streaming con API di streaming bidirezionale che consente conversazioni a più turni in tempo reale e a bassa latenza.
-
Supporto multilingue con rilevamento e cambio automatico della lingua. Sono disponibili voci espressive, comprese voci maschili e femminili, nelle seguenti lingue:
-
Inglese (Stati Uniti, Regno Unito, India, Australia)
-
Francese
-
Italiano
-
Tedesco
-
Spagnolo
-
Portoghese
-
Hindi
-
-
Voci poliglotte in grado di parlare una qualsiasi delle lingue supportate per consentire un'esperienza utente coerente anche quando l'utente cambia lingua all'interno della stessa sessione.
-
Robustezza rispetto al rumore di fondo per scenari di implementazione nel mondo reale.
-
Robustezza a diversi accenti per le lingue supportate.
-
Esperienze di intelligenza artificiale conversazionale naturali e simili a quelle umane con ricchezza contestuale in tutte le lingue supportate.
-
Risposta vocale adattiva che regola dinamicamente la riproduzione in base alla prosodia del discorso di input.
-
Intervento intelligente che rileva quando gli utenti finiscono di parlare e quando l'assistente deve rispondere, creando un ritmo di dialogo naturale.
-
Gestione agevole delle interruzioni degli utenti senza alterare il contesto della conversazione.
-
Contestualizzazione delle conoscenze con dati aziendali grazie alla generazione potenziata da recupero dati (RAG).
-
Chiamata di funzioni e supporto del flusso di lavoro agentico per la creazione di applicazioni di IA complesse.
-
Gestione asincrona degli strumenti che esegue le chiamate agli strumenti mantenendo il flusso di conversazione, permettendo all'assistente di continuare a parlare mentre gli strumenti procedono in background.
-
Supporto di input intermodale per input audio e di testo all'interno della stessa conversazione, che consente modelli di interazione flessibili.
-
Limite di connessione di 8 minuti, con rinnovo della connessione e schema di continuazione della sessione disponibili negli esempi di codice.