Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Voces neuronales
Amazon Polly tiene un motor Neural text-to-speech (NTTS) que puede producir voces de calidad incluso superior a las voces estándar. TTSLas voces estándar utilizan la síntesis concatenativa. El motor estándar concatena los fonemas de la voz grabada, produciendo una voz sintetizada con un sonido muy natural. Sin embargo, las variaciones inevitables del habla y las técnicas utilizadas para segmentar las formas de onda limitan la calidad del habla. El NTTS motor Amazon Polly no utiliza la síntesis concatenativa estándar para producir voz. Este sistema tiene dos componentes:
-
Red neuronal: convierte una secuencia de fonemas (las unidades más básicas del lenguaje) en una secuencia de espectrogramas. (Los espectogramas son instantáneas de los niveles de energía en diferentes bandas de frecuencia).
-
Un vocoder: convierte los espectrogramas en una señal de audio casi continua.
El primer componente del TTS sistema neuronal es un modelo. sequence-to-sequence Este modelo no crea sus resultados únicamente a partir de la entrada correspondiente, sino que también considera el funcionamiento conjunto de la secuencia de los elementos de entrada. El modelo elige los espectrogramas que genera, de modo que sus bandas de frecuencia enfaticen las características acústicas que el cerebro humano utiliza al procesar el habla.
A continuación, la salida de este modelo se transfiere a un vocoder neuronal. Este convierte los espectrogramas en formas de onda de voz. Si se entrena en los grandes conjuntos de datos que se utilizan para crear sistemas de síntesis concatenativa de uso general, este sequence-to-sequence enfoque producirá voces de mayor calidad y con un sonido más natural.
Voces neuronales disponibles
Las voces neuronales están disponibles en 35 idiomas y variantes lingüísticas. En la siguiente tabla se enumeran las voces.
|
Idioma y variantes lingüísticas | Código de idioma | Nombre/ID | Gender |
---|---|---|---|---|
1 |
Árabe (Golfo) |
ar-AE |
Hala Zayd |
Mujer Hombre |
2 |
Neerlandés belga (flamenco) |
nl-BE |
Lisa |
Mujer |
3 |
Catalán |
ca-ES |
Arlet |
Mujer |
4 |
Checo |
CS-CZ |
Jitka |
Mujer |
5 |
Chino (cantonés) |
yue-CN |
Hiujin |
Mujer |
6 |
Chino (mandarín) |
cmn-CN |
Zhiyu |
Mujer |
7 |
Danés |
da-DK |
Sofie |
Mujer |
8 |
Neerlandés |
nl-NL |
Laura |
Mujer |
9 |
Inglés (Australia) |
en-AU |
Olivia |
Mujer |
10 |
Inglés (Reino Unido) |
en-GB |
Amy* Emma Brian Arthur |
Mujer Mujer Hombre Hombre |
11 |
Inglés (India) |
en-IN |
Kajal |
Mujer |
12 |
Inglés (irlandés) |
en-IE |
Niamh |
Mujer |
13 |
Inglés (Nueva Zelanda) |
en-NZ |
Aria |
Mujer |
14 |
Inglés (sudafricano) |
en-ZA |
Ayanda |
Mujer |
15 |
English (EE. UU.) |
en-US |
Danielle Gregory Ivy Joanna* Kendra Kimberly Salli Joey Justin Kevin Matthew* Ruth Stephen |
Mujer Hombre Mujer (niña) Mujer Mujer Mujer Mujer Hombre Hombre (niño) Hombre (niño) Hombre Mujer Hombre |
16 |
Finés |
fi-FI |
Suvi |
Mujer |
17 |
Francés (belga) |
fr-BE |
Isabelle |
Mujer |
18 |
Francés (Canadá) |
fr-CA |
Gabrielle Liam |
Mujer Hombre |
19 |
Francés |
fr-FR |
Léa Rémi |
Mujer Hombre |
20 |
Alemán |
de-DE |
Vicki Daniel |
Mujer Hombre |
21 |
Alemán (austriaco) |
de-AT |
Hannah |
Mujer |
22 |
Alemán (suizo) |
De-ch |
Sabrina |
Mujer |
23 |
Hindi |
hi-IN |
Kajal |
Mujer |
24 |
Italiano |
it-IT |
Bianca Adriano |
Mujer Hombre |
25 |
Japonés |
ja-JP |
Takumi Kazuha Tomoko |
Hombre Mujer Mujer |
26 |
Coreano |
ko-KR |
Seoyeon |
Mujer |
27 |
Noruego |
nb-NO |
Ida |
Mujer |
28 |
Polaco |
pl-PL |
Ola |
Mujer |
29 |
Portugués (Brasil) |
pt-BR |
Camila Vitória/Vitoria Thiago |
Mujer Mujer Hombre |
30 |
Portugués (Europa) |
pt-PT |
Inês/Ines |
Mujer |
31 |
Español (europeo) |
es-ES |
Lucía Sergio |
Mujer Hombre |
32 |
Español (México) |
es-MX |
Mia Andrés |
Mujer Hombre |
33 |
Español (EE. UU.) |
es-US |
Lupe* Pedro |
Mujer Hombre |
34 |
Sueco |
sv-SE |
Elin |
Mujer |
35 |
Turco |
tr-TR |
Burcu |
Mujer |
*Las voces de Matthew y Joanna se pueden usar con los estilos de habla Newscaster y Conversacional. Para obtener más información, consulte Aplicando la voz del presentador de noticias.
Compatibilidad con características y regiones
Las voces neuronales no están disponibles en todas AWS las regiones ni son compatibles con todas las funciones de Amazon Polly.
Las voces neuronales se admiten en las siguientes regiones:
-
Este de EE. UU. (Norte de Virginia): us-east-1
-
EE.UU. Oeste (Oregón): us-west-2
-
África (Ciudad del Cabo) (af-south-1)
-
Asia-Pacífico (Tokio) ap-northeast-1
-
Asia-Pacífico (Seúl) ap-northeast-2
-
Asia-Pacífico (Osaka): ap-northeast-3
-
Asia-Pacífico (Bombay) ap-south-1
-
Asia-Pacífico (Singapur) ap-southeast-1
-
Asia Pacífico (Sídney): ap-southeast-2
-
Canadá (centro) ca-central-1
-
Europa (Fráncfort) eu-central-1
-
Europa (Irlanda) (eu-west-1)
-
Europa (Londres) eu-west-2
-
Europa (París): eu-west-3
-
AWS GovCloud (US-Oeste): -1 us-gov-west
Los puntos de conexión y protocolos de estas regiones son idénticos a los que se utilizan para las voces estándar. Para obtener más información, consulte Cuotas y puntos de conexión de Amazon Polly.
Se admiten las siguientes características con las voces neuronales:
-
Operaciones de síntesis de voz asíncronas y en tiempo real.
-
Estilo de habla Newscaster. Para obtener más información sobre los estilos de habla, consulte Aplicando la voz del presentador de noticias.
-
Todas las marcas de voz.
-
Muchas (pero no todas) de las SSML etiquetas compatibles con Amazon Polly. Para obtener más información sobre las SSML etiquetas NTTS compatibles, consulte Etiquetas compatibles.
Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las frecuencias de muestreo válidas para las voces estándar y neuronales son 8kHz, 16 kHzkHz, 22 o 24kHz. El valor predeterminado para las voces estándar es 22kHz. El valor predeterminado para las voces neuronales es 24kHz. Amazon Polly admite formatos de MP3 transmisión de PCM audio OGG (Vorbis) y sin procesar.