Voces neuronales - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Voces neuronales

Amazon Polly tiene un motor Neural text-to-speech (NTTS) que puede producir voces de calidad incluso superior a las voces estándar. TTSLas voces estándar utilizan la síntesis concatenativa. El motor estándar concatena los fonemas de la voz grabada, produciendo una voz sintetizada con un sonido muy natural. Sin embargo, las variaciones inevitables del habla y las técnicas utilizadas para segmentar las formas de onda limitan la calidad del habla. El NTTS motor Amazon Polly no utiliza la síntesis concatenativa estándar para producir voz. Este sistema tiene dos componentes:

  • Red neuronal: convierte una secuencia de fonemas (las unidades más básicas del lenguaje) en una secuencia de espectrogramas. (Los espectogramas son instantáneas de los niveles de energía en diferentes bandas de frecuencia).

  • Un vocoder: convierte los espectrogramas en una señal de audio casi continua.

El primer componente del TTS sistema neuronal es un modelo. sequence-to-sequence Este modelo no crea sus resultados únicamente a partir de la entrada correspondiente, sino que también considera el funcionamiento conjunto de la secuencia de los elementos de entrada. El modelo elige los espectrogramas que genera, de modo que sus bandas de frecuencia enfaticen las características acústicas que el cerebro humano utiliza al procesar el habla.

A continuación, la salida de este modelo se transfiere a un vocoder neuronal. Este convierte los espectrogramas en formas de onda de voz. Si se entrena en los grandes conjuntos de datos que se utilizan para crear sistemas de síntesis concatenativa de uso general, este sequence-to-sequence enfoque producirá voces de mayor calidad y con un sonido más natural.

Voces neuronales disponibles

Las voces neuronales están disponibles en 35 idiomas y variantes lingüísticas. En la siguiente tabla se enumeran las voces.

Idioma y variantes lingüísticas Código de idioma Nombre/ID Gender

1

Árabe (Golfo)

ar-AE

Hala

Zayd

Mujer

Hombre

2

Neerlandés belga (flamenco)

nl-BE

Lisa

Mujer

3

Catalán

ca-ES

Arlet

Mujer

4

Checo

CS-CZ

Jitka

Mujer

5

Chino (cantonés)

yue-CN

Hiujin

Mujer

6

Chino (mandarín)

cmn-CN

Zhiyu

Mujer

7

Danés

da-DK

Sofie

Mujer

8

Neerlandés

nl-NL

Laura

Mujer

9

Inglés (Australia)

en-AU

Olivia

Mujer

10

Inglés (Reino Unido)

en-GB

Amy*

Emma

Brian

Arthur

Mujer

Mujer

Hombre

Hombre

11

Inglés (India)

en-IN

Kajal

Mujer

12

Inglés (irlandés)

en-IE

Niamh

Mujer

13

Inglés (Nueva Zelanda)

en-NZ

Aria

Mujer

14

Inglés (sudafricano)

en-ZA

Ayanda

Mujer

15

English (EE. UU.)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

Mujer

Hombre

Mujer (niña)

Mujer

Mujer

Mujer

Mujer

Hombre

Hombre (niño)

Hombre (niño)

Hombre

Mujer

Hombre

16

Finés

fi-FI

Suvi

Mujer

17

Francés (belga)

fr-BE

Isabelle

Mujer

18

Francés (Canadá)

fr-CA

Gabrielle

Liam

Mujer

Hombre

19

Francés

fr-FR

Léa

Rémi

Mujer

Hombre

20

Alemán

de-DE

Vicki

Daniel

Mujer

Hombre

21

Alemán (austriaco)

de-AT

Hannah

Mujer

22

Alemán (suizo)

De-ch

Sabrina

Mujer

23

Hindi

hi-IN

Kajal

Mujer

24

Italiano

it-IT

Bianca

Adriano

Mujer

Hombre

25

Japonés

ja-JP

Takumi

Kazuha

Tomoko

Hombre

Mujer

Mujer

26

Coreano

ko-KR

Seoyeon

Mujer

27

Noruego

nb-NO

Ida

Mujer

28

Polaco

pl-PL

Ola

Mujer

29

Portugués (Brasil)

pt-BR

Camila

Vitória/Vitoria

Thiago

Mujer

Mujer

Hombre

30

Portugués (Europa)

pt-PT

Inês/Ines

Mujer

31

Español (europeo)

es-ES

Lucía

Sergio

Mujer

Hombre

32

Español (México)

es-MX

Mia

Andrés

Mujer

Hombre

33

Español (EE. UU.)

es-US

Lupe*

Pedro

Mujer

Hombre

34

Sueco

sv-SE

Elin

Mujer

35

Turco

tr-TR

Burcu

Mujer

*Las voces de Matthew y Joanna se pueden usar con los estilos de habla Newscaster y Conversacional. Para obtener más información, consulte Aplicando la voz del presentador de noticias.

Compatibilidad con características y regiones

Las voces neuronales no están disponibles en todas AWS las regiones ni son compatibles con todas las funciones de Amazon Polly.

Las voces neuronales se admiten en las siguientes regiones:

  • Este de EE. UU. (Norte de Virginia): us-east-1

  • EE.UU. Oeste (Oregón): us-west-2

  • África (Ciudad del Cabo) (af-south-1)

  • Asia-Pacífico (Tokio) ap-northeast-1

  • Asia-Pacífico (Seúl) ap-northeast-2

  • Asia-Pacífico (Osaka): ap-northeast-3

  • Asia-Pacífico (Bombay) ap-south-1

  • Asia-Pacífico (Singapur) ap-southeast-1

  • Asia Pacífico (Sídney): ap-southeast-2

  • Canadá (centro) ca-central-1

  • Europa (Fráncfort) eu-central-1

  • Europa (Irlanda) (eu-west-1)

  • Europa (Londres) eu-west-2

  • Europa (París): eu-west-3

  • AWS GovCloud (US-Oeste): -1 us-gov-west

Los puntos de conexión y protocolos de estas regiones son idénticos a los que se utilizan para las voces estándar. Para obtener más información, consulte Cuotas y puntos de conexión de Amazon Polly.

Se admiten las siguientes características con las voces neuronales:

  • Operaciones de síntesis de voz asíncronas y en tiempo real.

  • Estilo de habla Newscaster. Para obtener más información sobre los estilos de habla, consulte Aplicando la voz del presentador de noticias.

  • Todas las marcas de voz.

  • Muchas (pero no todas) de las SSML etiquetas compatibles con Amazon Polly. Para obtener más información sobre las SSML etiquetas NTTS compatibles, consulte Etiquetas compatibles.

Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las frecuencias de muestreo válidas para las voces estándar y neuronales son 8kHz, 16 kHzkHz, 22 o 24kHz. El valor predeterminado para las voces estándar es 22kHz. El valor predeterminado para las voces neuronales es 24kHz. Amazon Polly admite formatos de MP3 transmisión de PCM audio OGG (Vorbis) y sin procesar.