Voces neuronales

Modo de enfoque

Voces neuronales - Amazon Polly

Voces neuronales disponibles Compatibilidad con características y regiones

Amazon Polly tiene un motor neuronal text-to-speech (NTTS) que puede producir voces de una calidad aún mayor que las voces estándar. Las voces TTS estándar utilizan síntesis concatenativa. Este método concatena los fonemas de los fragmentos grabados, lo que produce un habla sintetizada con un sonido muy natural. Sin embargo, las variaciones inevitables del habla y las técnicas utilizadas para segmentar las formas de onda limitan la calidad del habla. El sistema NTTS de Amazon Polly no utiliza la síntesis de concatenación estándar para producir voz. Este sistema tiene dos componentes:

Una red neuronal, que convierte una secuencia de fonemas (las unidades más básicas del lenguaje) en una secuencia de espectrogramas. (Los espectogramas son instantáneas de los niveles de energía en diferentes bandas de frecuencia).
Un codificador de voz, que convierte los espectrogramas en una señal de audio casi continua.

El primer componente del sistema TTS neuronal es un modelo. sequence-to-sequence Este modelo no crea sus resultados únicamente a partir de la entrada correspondiente, sino que también considera el funcionamiento conjunto de la secuencia de los elementos de entrada. El modelo elige los espectrogramas que genera, de modo que sus bandas de frecuencia enfaticen las características acústicas que el cerebro humano utiliza al procesar el habla.

A continuación, la salida de este modelo se transfiere a un vocoder neuronal. Este convierte los espectrogramas en formas de onda de voz. Si se entrena en los grandes conjuntos de datos que se utilizan para crear sistemas de síntesis concatenativa de uso general, este sequence-to-sequence enfoque producirá voces de mayor calidad y con un sonido más natural.

Voces neuronales disponibles

Las voces neuronales están disponibles en 36 idiomas y variantes lingüísticas. En la siguiente tabla se enumeran las voces.

	Idioma y variantes lingüísticas	Código de idioma	Nombre/ID	Gender
1	Árabe (Golfo)	ar-AE	Hala Zayd	Mujer Hombre
2	Neerlandés belga (flamenco)	nl-BE	Lisa	Mujer
3	Catalán	ca-ES	Arlet	Mujer
4	Checo	cs-CZ	Jitka	Mujer
5	Chino (cantonés)	yue-CN	Hiujin	Mujer
6	Chino (mandarín)	cmn-CN	Zhiyu	Mujer
7	Danés	da-DK	Sofie	Mujer
8	Neerlandés	nl-NL	Laura	Mujer
9	Inglés (Australia)	en-AU	Olivia	Mujer
10	Inglés (Reino Unido)	en-GB	Amy* Emma Brian Arthur	Mujer Mujer Hombre Hombre
11	Inglés (India)	en-IN	Kajal	Mujer
12	Inglés (irlandés)	en-IE	Niamh	Mujer
13	Inglés (Nueva Zelanda)	en-NZ	Aria	Mujer
14	Inglés (singapurense)	En-SG	Jazmín	Mujer
15	Inglés (sudafricano)	en-ZA	Ayanda	Mujer
16	English (EE. UU.)	en-US	Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen	Mujer Hombre Mujer (niña) Mujer Mujer Mujer Mujer Hombre Hombre (niño) Hombre (niño) Hombre Mujer Hombre
17	Finés	fi-FI	Suvi	Mujer
18	Francés (belga)	fr-BE	Isabelle	Mujer
19	Francés (Canadá)	fr-CA	Gabrielle Liam	Mujer Hombre
20	Francés	fr-FR	Léa Rémi	Mujer Hombre
21	Alemán	de-DE	Vicki Daniel	Mujer Hombre
22	Alemán (austriaco)	de-AT	Hannah	Mujer
23	Alemán (suizo)	de-CH	Sabrina	Mujer
24	Hindi	hi-IN	Kajal	Mujer
25	Italiano	it-IT	Bianca Adriano	Mujer Hombre
26	Japonés	ja-JP	Takumi Kazuha Tomoko	Hombre Mujer Mujer
27	Coreano	ko-KR	Seoyeon Jihye	Mujer Mujer
28	Noruego	nb-NO	Ida	Mujer
29	Polaco	pl-PL	Ola	Mujer
30	Portugués (Brasil)	pt-BR	Camila Vitória/Vitoria Thiago	Mujer Mujer Hombre
31	Portugués (Europa)	pt-PT	Inês/Ines	Mujer
32	Español (España)	es-ES	Lucía Sergio	Mujer Hombre
33	Español (México)	es-MX	Mia Andrés	Mujer Hombre
34	Español (EE. UU.)	es-US	Lupe* Pedro	Mujer Hombre
35	Sueco	sv-SE	Elin	Mujer
36	Turco	tr-TR	Burcu	Mujer

*Las voces de Matthew y Joanna se pueden usar con los estilos de habla Newscaster y Conversacional. Para obtener más información, consulte Aplicación de la voz de presentador.

Compatibilidad con características y regiones

Las voces neuronales no están disponibles en todas AWS las regiones ni son compatibles con todas las funciones de Amazon Polly.

Las voces neuronales se admiten en las siguientes regiones:

Este de EE. UU. (Norte de Virginia): us-east-1
EE.UU. Oeste (Oregón): us-west-2
África (Ciudad del Cabo) (af-south-1)
Asia-Pacífico (Tokio) ap-northeast-1
Asia-Pacífico (Seúl) ap-northeast-2
Asia-Pacífico (Osaka): ap-northeast-3
Asia-Pacífico (Bombay) ap-south-1
Asia-Pacífico (Singapur) ap-southeast-1
Asia Pacífico (Sídney): ap-southeast-2
Asia Pacífico (Malasia): ap-southeast-5
Canadá (centro) ca-central-1
Europa (Fráncfort) eu-central-1
Europa (Irlanda) (eu-west-1)
Europa (Londres) eu-west-2
Europa (París): eu-west-3
Europa (España): eu-south-2
AWS GovCloud (EEUU-Oeste): -1 us-gov-west

Los puntos de conexión y protocolos de estas regiones son idénticos a los que se utilizan para las voces estándar. Para obtener más información, consulte Cuotas y puntos de conexión de Amazon Polly.

Se admiten las siguientes características con las voces neuronales:

Operaciones de síntesis de voz asíncronas y en tiempo real.
Estilo de habla Newscaster. Para obtener más información sobre los estilos de habla, consulte Aplicación de la voz de presentador.
Todas las marcas de voz.
La mayoría de las etiquetas SSML son compatibles con Amazon Polly, pero no todas. Para obtener más información acerca de las etiquetas SSML compatibles con NTTS, consulte Etiquetas admitidas.

Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las velocidades de muestreo válidas para las voces estándar y neuronales son 8 kHz, 16 kHz, 22 kHz o 24 kHz. El valor predeterminado para las voces estándar es 22 kHz. El valor predeterminado para las voces estándar es 24 kHz. Amazon Polly admite los formatos de MP3 transmisión de audio OGG (Vorbis) y PCM sin procesar.