Voci a forma lunga - Amazon Polly

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Voci a forma lunga

Amazon Polly ha un motore a forma lunga che produce voci simili a quelle umane, altamente espressive ed emotivamente abili. Le voci lunghe sono progettate per attirare l'attenzione degli ascoltatori quando si tratta di contenuti più lunghi, come articoli di notizie, materiali di formazione o video di marketing.

Le voci lunghe di Amazon Polly sono sviluppate con una tecnologia di deep learning all'avanguardia. TTS Il modello impara a replicare fonemi, prosodia, intonazione e altri aspetti fonetici e acustici del linguaggio umano, ottenendo un output vocale estremamente naturale.

Il motore Long-form utilizza gli incorporamenti di testo per interpretare il significato di un testo. Utilizzando gli incorporamenti di testo, il motore Long-form può generare l'enfasi, le pause e il tono corretti di una voce naturale. Il risultato è una voce che combina la gamma completa di elementi emotivi presenti nella comunicazione umana. Ciò include l'imitazione del dialogo a sorpresa o la differenziazione del dialogo dalla narrazione. Insieme, questo crea un prodotto vocale di alta qualità che suona come un essere umano vivo.

Nota

La state-of-the-art tecnologia alla base di queste voci rientra nel paradigma dell'intelligenza artificiale generativa per la modellazione del linguaggio e della voce. Un effetto collaterale della tecnologia è che qualsiasi aggiornamento ai dati di addestramento e al modello potrebbe comportare lievi variazioni nel modo in cui le voci suonano, anche nel caso in cui la loro qualità complessiva migliori con gli aggiornamenti del modello. Ciò potrebbe avere un impatto sui casi d'uso con diverse parti di contenuto sintetizzate per un lungo periodo di tempo, ad esempio una stagione di podcast.

Voci in formato lungo disponibili

Amazon Polly attualmente offre due voci femminili e uno maschile in formato esteso negli Stati Uniti. Queste voci lunghe sono disponibili anche in una variante colloquiale. NTTS

Lingua Codice lingua Nome/ID Gender

1

Inglese (Stati Uniti)

it-IT

Danielle

Gregory

Ruth**

Femmina

Maschio

Femmina

Compatibilità tra funzionalità e aree geografiche

Le voci estese di Amazon Polly sono disponibili nelle seguenti regioni:

  • Stati Uniti orientali (Virginia settentrionale): us-east-1

  • Altre regioni non disponibili

Il motore Amazon Polly Long-form supporta le seguenti funzionalità:

  • Operazioni di sintesi vocale asincrona e in tempo reale.

  • Tutti i segni vocali.

  • Molti SSML tag (ma non tutti) sono supportati da Amazon Polly. Per ulteriori informazioni sui tag NTTS -supported, consulta SSML Tag supportati SSML

  • Come per le voci standard, puoi scegliere tra diverse frequenze di campionamento per ottimizzare la larghezza di banda e la qualità audio della tua applicazione. Le frequenze di campionamento valide per voci standard, lunghe e neurali sono le seguenti: 8kHz, 16kHz, 22 kHz o 24. kHz L'impostazione predefinita per le voci standard è 22. kHz L'impostazione predefinita per le voci lunghe e neurali è 24. kHz Amazon Polly supporta i formati di streaming PCM audioMP3, OGG (Vorbis) e raw.

Nota

Il costo delle voci in formato lungo è specificato nella pagina di informazioni sui prezzi di Amazon Polly.

Utilizzo del motore Long-form sulla console

Puoi accedere alle voci estese di Amazon Polly tramite la console Amazon Polly oppure AWS CLI.

Per utilizzare il motore Long-form sulla console
  1. Apri la console Amazon Polly all'indirizzo. https://console.aws.amazon.com/polly/

  2. Dalla console Amazon Polly, scegli il motore Long Form.

  3. Scegli la voce desiderata dal menu a discesa vocale.

  4. Genera TTS audio con testo a tua scelta.

Nota

Le voci in formato lungo possono essere utilizzate anche con le StartSpeechSynthesisTaskAPIoperazioni SynthesizeSpeechand. Per le API operazioni, i clienti possono specificare il motore e il nome delle voci nella API richiesta. Puoi trovare altri esempi di codice di avvio rapido qui.