Voces de formato largo disponibles Compatibilidad con características y regiones

Voz de formato largo

Amazon Polly tiene un motor de formato largo que produce voces parecidas a las humanas, altamente expresivas y emocionalmente expertas. Las voces de formato largo están diseñadas para captar la atención de los oyentes con contenido más extenso, como artículos de noticias, materiales de formación o vídeos de marketing.

Las voces de formato largo de Amazon Polly se desarrollan con una tecnología de aprendizaje profundo de última generación. TTS El modelo aprende a reproducir los fonemas, la prosodia, la entonación y otros aspectos fonéticos y acústicos del lenguaje humano, lo que da como resultado una salida de voz muy natural.

El motor de formato largo utiliza incrustaciones de texto para interpretar el significado de un texto. Al utilizar incrustaciones de texto, el motor de formato largo puede generar el énfasis, las pausas y el tono correctos de una voz natural. El resultado es una voz que combina toda la gama de elementos emocionales presentes en la comunicación humana. Esto incluye imitar la sorpresa o diferenciar el diálogo de la narración. En conjunto, esto crea un producto de voz de primera calidad que suena como el de un ser humano vivo.

nota

La state-of-the-art tecnología que subyace a estas voces se inscribe en el paradigma de la IA generativa para el modelado del lenguaje y la voz. Un efecto secundario de la tecnología es que cualquier actualización de los datos de entrenamiento y del modelo podría provocar ligeras variaciones en la forma en que suenan las voces, incluso en el caso de que su calidad general mejore con las actualizaciones del modelo. Esto podría repercutir en los casos de uso en los que distintas partes del contenido se sintetizan a lo largo de un período de tiempo prolongado (por ejemplo, una temporada de podcasts).

Voces de formato largo disponibles

Amazon Polly ofrece actualmente dos voces largas femeninas y una masculina en formato largo en EE. UU. Estas voces de formato largo también están disponibles en una variante conversacional. NTTS

	Idioma	Código de idioma	Nombre/ID	Gender
1	English (EE. UU.)	en-US	Danielle Gregory Ruth	Mujer Hombre Mujer

Idioma

Código de idioma

Nombre/ID

Gender

English (EE. UU.)

en-US

Danielle

Gregory

Ruth

Mujer

Hombre

Mujer

Compatibilidad con características y regiones

Las voces de formato largo de Amazon Polly están disponibles en las siguientes regiones:

Este de EE. UU. (Norte de Virginia): us-east-1
Otras regiones no están disponibles

El motor Amazon Polly Longform admite las siguientes funciones:

Operaciones de síntesis de voz asíncronas y en tiempo real.
Todas las marcas de voz.
Amazon Polly admite muchas SSML etiquetas (pero no todas). Para obtener más información sobre las SSML etiquetas NTTS compatibles, consulte Etiquetas compatibles SSML
Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las frecuencias de muestreo válidas para las voces estándar, largas y neuronales son: 8kHz, 16 kHzkHz, 22 o 24. kHz El valor predeterminado para las voces estándar es 22kHz. El valor predeterminado para las voces de formato largo y neuronales es 24kHz. Amazon Polly admite formatos de MP3 transmisión de PCM audio OGG (Vorbis) y sin procesar.

nota

El costo de las voces de formato largo se especifica en la página de información de precios de Amazon Polly.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Motor generativo

Motor neuronal