Voci generative disponibili Compatibilità tra funzionalità e aree geografiche

Voci generative

Il motore generativo text-to-speech (TTS) di Amazon Polly offre le voci conversazionali più simili a quelle umane, emotivamente coinvolgenti e adattive disponibili per l'uso tramite la console Amazon Polly.

Il motore Generative è il modello Amazon TTS Polly più grande mai realizzato fino ad oggi. Implementa un trasformatore da miliardi di parametri che converte il testo non elaborato in codici vocali, seguito da un decodificatore basato sulla convoluzione che converte questi codici vocali in forme d'onda in modo incrementale e semplificato. Questo metodo mostra le capacità emergenti ampiamente diffuse dei Large Language Models (LLMs) quando vengono addestrati su volumi crescenti di dati proprietari e disponibili al pubblico che comprendono una varietà di voci, lingue e stili.

Il motore generativo crea un linguaggio sintetico che è emotivamente coinvolgente, assertivo e altamente colloquiale in un modo notevolmente simile a una voce umana. Puoi usare queste voci come un assistente clienti esperto, un trainer virtuale o un inserzionista con un linguaggio sintetico quasi umano.

Nota

La state-of-the-art tecnologia alla base di queste voci rientra nel paradigma dell'intelligenza artificiale generativa per la modellazione del linguaggio e della voce. Un effetto collaterale della tecnologia è che qualsiasi aggiornamento ai dati di addestramento e al modello potrebbe comportare lievi variazioni nel modo in cui le voci suonano, anche nel caso in cui la loro qualità complessiva migliori con gli aggiornamenti del modello. Ciò potrebbe avere un impatto sui casi d'uso con diverse parti di contenuto sintetizzate per un lungo periodo di tempo, ad esempio una stagione di podcast.

Voci generative disponibili

Amazon Polly offre attualmente 20 voci in una variante generativa. Queste voci generative sono disponibili anche in una variante conversazionale. NTTS

	Lingua	Codice lingua	Nome/ID	Gender
1	Inglese (Australia)	en-AU	Olivia	Femmina
2	Inglese (India)	en-IN	Kajal	Femmina
3	Inglese (Regno Unito)	en-GB	Amy	Femmina
4	Inglese (Stati Uniti)	it-IT	Danielle	Femmina
5	Inglese (Stati Uniti)	it-IT	Joanna	Femmina
6	Inglese (Stati Uniti)	it-IT	Matthew	Maschio
7	Inglese (Stati Uniti)	it-IT	Ruth**	Femmina
8	Inglese (Stati Uniti)	it-IT	Stephen**	Maschio
9	Inglese (Sud Africa)	en-ZA	Ayanda	Femmina
10	Francese (Francia)	fr-FR	Léa	Femmina
11	Francese (Francia)	fr-FR	Rémi**	Maschio
12	Spagnolo (Spagna)	es-ES	Lucia	Femmina
13	Spagnolo (Spagna)	es-ES	Sergio**	Maschio
14	Spagnolo (messicano)	es-MX	Mía	Femmina
15	Spagnolo (messicano)	es-MX	Andres**	Maschio
16	Spagnolo (Stati Uniti)	es-US	Lupe	Femmina
17	Spagnolo (Stati Uniti)	es-US	Pedro	Maschio
18	Tedesco (Germania)	de-DE	Vicki	Femmina
19	Tedesco (Germania)	de-DE	Daniele	Maschio
20	Italiano (Italia)	it-IT	Bianca	Femmina

Nota

Il costo delle voci generative è specificato nella pagina di informazioni sui prezzi di Amazon Polly.

Compatibilità tra funzionalità e aree geografiche

Le voci generative di Amazon Polly sono disponibili nelle seguenti regioni:

Stati Uniti orientali (Virginia settentrionale): us-east-1
Europa (Francoforte): eu-central-1
Stati Uniti occidentali (Oregon): us-west-2
Altre regioni non sono disponibili

Le seguenti funzionalità sono supportate per le voci generative:

Operazioni di sintesi vocale asincrona e in tempo reale.
Lo stile di pronuncia di Newscaster non è supportato nel motore Generative.
Molti SSML tag (ma non tutti) sono supportati da Amazon Polly. Per ulteriori informazioni sui tag NTTS -supported, consulta SSML Tag supportati SSML
Come per le voci standard, puoi scegliere tra diverse frequenze di campionamento per ottimizzare la larghezza di banda e la qualità audio della tua applicazione. Le frequenze di campionamento valide per le voci standard e neurali sono 8kHz, 16 kHzkHz, 22 o 24. kHz L'impostazione predefinita per le voci standard è 22. kHz L'impostazione predefinita per le voci generative è 24kHz. Amazon Polly supporta i formati di streaming PCM audioMP3, OGG (Vorbis) e raw.

Il supporto per la generazione di contrassegni vocali non è attualmente disponibile.

Nota

Nell'improbabile eventualità che si verifichi un'allucinazione del modello (e con il comportamento del motore Generative, che prevede la riproduzione vocale token per token), viene imposto un meccanismo di arresto di emergenza. Il meccanismo integrato impedisce al modello di riprodurre ulteriormente il parlato. Questa funzionalità di sicurezza si basa sull'analisi dei dati in cui il modello può generare allucinazioni, di solito alla fine della frase.

Potrebbero verificarsi casi in cui il modello pensa di provocare allucinazioni e poi finisce per tagliare una parola durante una fase generazionale, restituendo così metà della parola. Ciò potrebbe generare risultati inappropriati.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Motori vocali

Motore a forma lunga