View a markdown version of this page

Speech-to-Speech (Amazon Nova 2 Sonic) - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Speech-to-Speech (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic abilita l'intelligenza artificiale conversazionale in tempo reale con input e output vocali. La sezione seguente illustra le funzionalità avanzate per la creazione di assistenti vocali interattivi, l'automazione del servizio clienti e le applicazioni conversazionali.

Funzionalità principali

Amazon Nova 2 Sonic offre le seguenti funzionalità:

  • State-of-the-art comprensione vocale in streaming con API di streaming bidirezionale che consente conversazioni a più turni in tempo reale e a bassa latenza.

  • Supporto multilingue con rilevamento e cambio automatico della lingua. Sono disponibili voci espressive, comprese voci maschili e femminili, nelle seguenti lingue:

    • Inglese (Stati Uniti, Regno Unito, India, Australia)

    • Francese

    • Italiano

    • Tedesco

    • Spagnolo

    • Portoghese

    • Hindi

  • Voci poliglotte in grado di parlare una qualsiasi delle lingue supportate per consentire un'esperienza utente coerente anche quando l'utente cambia lingua all'interno della stessa sessione.

  • Robustezza rispetto al rumore di fondo per scenari di implementazione nel mondo reale.

  • Robustezza a diversi accenti per le lingue supportate.

  • Esperienze di intelligenza artificiale conversazionale naturali e simili a quelle umane con ricchezza contestuale in tutte le lingue supportate.

  • Risposta vocale adattiva che regola dinamicamente la riproduzione in base alla prosodia del discorso di input.

  • Intervento intelligente che rileva quando gli utenti finiscono di parlare e quando l'assistente deve rispondere, creando un ritmo di dialogo naturale.

  • Gestione agevole delle interruzioni degli utenti senza alterare il contesto della conversazione.

  • Contestualizzazione delle conoscenze con dati aziendali grazie alla generazione potenziata da recupero dati (RAG).

  • Chiamata di funzioni e supporto del flusso di lavoro agentico per la creazione di applicazioni di IA complesse.

  • Gestione asincrona degli strumenti che esegue le chiamate agli strumenti mantenendo il flusso di conversazione, permettendo all'assistente di continuare a parlare mentre gli strumenti procedono in background.

  • Supporto di input intermodale per input audio e di testo all'interno della stessa conversazione, che consente modelli di interazione flessibili.

  • Limite di connessione di 8 minuti, con rinnovo della connessione e schema di continuazione della sessione disponibili negli esempi di codice.