Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Voces neuronales

Modo de enfoque
Voces neuronales - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon Polly tiene un motor neuronal text-to-speech (NTTS) que puede producir voces de una calidad aún mayor que las voces estándar. Las voces TTS estándar utilizan síntesis concatenativa. Este método concatena los fonemas de los fragmentos grabados, lo que produce un habla sintetizada con un sonido muy natural. Sin embargo, las variaciones inevitables del habla y las técnicas utilizadas para segmentar las formas de onda limitan la calidad del habla. El sistema NTTS de Amazon Polly no utiliza la síntesis de concatenación estándar para producir voz. Este sistema tiene dos componentes:

  • Una red neuronal, que convierte una secuencia de fonemas (las unidades más básicas del lenguaje) en una secuencia de espectrogramas. (Los espectogramas son instantáneas de los niveles de energía en diferentes bandas de frecuencia).

  • Un codificador de voz, que convierte los espectrogramas en una señal de audio casi continua.

El primer componente del sistema TTS neuronal es un modelo. sequence-to-sequence Este modelo no crea sus resultados únicamente a partir de la entrada correspondiente, sino que también considera el funcionamiento conjunto de la secuencia de los elementos de entrada. El modelo elige los espectrogramas que genera, de modo que sus bandas de frecuencia enfaticen las características acústicas que el cerebro humano utiliza al procesar el habla.

A continuación, la salida de este modelo se transfiere a un vocoder neuronal. Este convierte los espectrogramas en formas de onda de voz. Si se entrena en los grandes conjuntos de datos que se utilizan para crear sistemas de síntesis concatenativa de uso general, este sequence-to-sequence enfoque producirá voces de mayor calidad y con un sonido más natural.

Voces neuronales disponibles

Las voces neuronales están disponibles en 36 idiomas y variantes lingüísticas. En la siguiente tabla se enumeran las voces.

Idioma y variantes lingüísticas Código de idioma Nombre/ID Gender

1

Árabe (Golfo)

ar-AE

Hala

Zayd

Mujer

Hombre

2

Neerlandés belga (flamenco)

nl-BE

Lisa

Mujer

3

Catalán

ca-ES

Arlet

Mujer

4

Checo

cs-CZ

Jitka

Mujer

5

Chino (cantonés)

yue-CN

Hiujin

Mujer

6

Chino (mandarín)

cmn-CN

Zhiyu

Mujer

7

Danés

da-DK

Sofie

Mujer

8

Neerlandés

nl-NL

Laura

Mujer

9

Inglés (Australia)

en-AU

Olivia

Mujer

10

Inglés (Reino Unido)

en-GB

Amy*

Emma

Brian

Arthur

Mujer

Mujer

Hombre

Hombre

11

Inglés (India)

en-IN

Kajal

Mujer

12

Inglés (irlandés)

en-IE

Niamh

Mujer

13

Inglés (Nueva Zelanda)

en-NZ

Aria

Mujer

14

Inglés (singapurense)

En-SG

Jazmín

Mujer

15

Inglés (sudafricano)

en-ZA

Ayanda

Mujer

16

English (EE. UU.)

en-US

Danielle

Gregory

Ivy

Joanna*

Kendra

Kimberly

Salli

Joey

Justin

Kevin

Matthew*

Ruth

Stephen

Mujer

Hombre

Mujer (niña)

Mujer

Mujer

Mujer

Mujer

Hombre

Hombre (niño)

Hombre (niño)

Hombre

Mujer

Hombre

17

Finés

fi-FI

Suvi

Mujer

18

Francés (belga)

fr-BE

Isabelle

Mujer

19

Francés (Canadá)

fr-CA

Gabrielle

Liam

Mujer

Hombre

20

Francés

fr-FR

Léa

Rémi

Mujer

Hombre

21

Alemán

de-DE

Vicki

Daniel

Mujer

Hombre

22

Alemán (austriaco)

de-AT

Hannah

Mujer

23

Alemán (suizo)

de-CH

Sabrina

Mujer

24

Hindi

hi-IN

Kajal

Mujer

25

Italiano

it-IT

Bianca

Adriano

Mujer

Hombre

26

Japonés

ja-JP

Takumi

Kazuha

Tomoko

Hombre

Mujer

Mujer

27

Coreano

ko-KR

Seoyeon

Jihye

Mujer

Mujer

28

Noruego

nb-NO

Ida

Mujer

29

Polaco

pl-PL

Ola

Mujer

30

Portugués (Brasil)

pt-BR

Camila

Vitória/Vitoria

Thiago

Mujer

Mujer

Hombre

31

Portugués (Europa)

pt-PT

Inês/Ines

Mujer

32

Español (España)

es-ES

Lucía

Sergio

Mujer

Hombre

33

Español (México)

es-MX

Mia

Andrés

Mujer

Hombre

34

Español (EE. UU.)

es-US

Lupe*

Pedro

Mujer

Hombre

35

Sueco

sv-SE

Elin

Mujer

36

Turco

tr-TR

Burcu

Mujer

*Las voces de Matthew y Joanna se pueden usar con los estilos de habla Newscaster y Conversacional. Para obtener más información, consulte Aplicación de la voz de presentador.

Compatibilidad con características y regiones

Las voces neuronales no están disponibles en todas AWS las regiones ni son compatibles con todas las funciones de Amazon Polly.

Las voces neuronales se admiten en las siguientes regiones:

  • Este de EE. UU. (Norte de Virginia): us-east-1

  • EE.UU. Oeste (Oregón): us-west-2

  • África (Ciudad del Cabo) (af-south-1)

  • Asia-Pacífico (Tokio) ap-northeast-1

  • Asia-Pacífico (Seúl) ap-northeast-2

  • Asia-Pacífico (Osaka): ap-northeast-3

  • Asia-Pacífico (Bombay) ap-south-1

  • Asia-Pacífico (Singapur) ap-southeast-1

  • Asia Pacífico (Sídney): ap-southeast-2

  • Asia Pacífico (Malasia): ap-southeast-5

  • Canadá (centro) ca-central-1

  • Europa (Fráncfort) eu-central-1

  • Europa (Irlanda) (eu-west-1)

  • Europa (Londres) eu-west-2

  • Europa (París): eu-west-3

  • Europa (España): eu-south-2

  • AWS GovCloud (EEUU-Oeste): -1 us-gov-west

Los puntos de conexión y protocolos de estas regiones son idénticos a los que se utilizan para las voces estándar. Para obtener más información, consulte Cuotas y puntos de conexión de Amazon Polly.

Se admiten las siguientes características con las voces neuronales:

  • Operaciones de síntesis de voz asíncronas y en tiempo real.

  • Estilo de habla Newscaster. Para obtener más información sobre los estilos de habla, consulte Aplicación de la voz de presentador.

  • Todas las marcas de voz.

  • La mayoría de las etiquetas SSML son compatibles con Amazon Polly, pero no todas. Para obtener más información acerca de las etiquetas SSML compatibles con NTTS, consulte Etiquetas admitidas.

Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las velocidades de muestreo válidas para las voces estándar y neuronales son 8 kHz, 16 kHz, 22 kHz o 24 kHz. El valor predeterminado para las voces estándar es 22 kHz. El valor predeterminado para las voces estándar es 24 kHz. Amazon Polly admite los formatos de MP3 transmisión de audio OGG (Vorbis) y PCM sin procesar.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.