Voz de formato largo - Amazon Polly

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Voz de formato largo

Amazon Polly tiene un motor de formato largo que produce voces parecidas a las humanas, altamente expresivas y emocionalmente expertas. Las voces de formato largo están diseñadas para captar la atención de los oyentes con contenido más extenso, como artículos de noticias, materiales de formación o vídeos de marketing.

Las voces de formato largo de Amazon Polly se desarrollan con una tecnología de aprendizaje profundo de última generación. TTS El modelo aprende a reproducir los fonemas, la prosodia, la entonación y otros aspectos fonéticos y acústicos del lenguaje humano, lo que da como resultado una salida de voz muy natural.

El motor de formato largo utiliza incrustaciones de texto para interpretar el significado de un texto. Al utilizar incrustaciones de texto, el motor de formato largo puede generar el énfasis, las pausas y el tono correctos de una voz natural. El resultado es una voz que combina toda la gama de elementos emocionales presentes en la comunicación humana. Esto incluye imitar la sorpresa o diferenciar el diálogo de la narración. En conjunto, esto crea un producto de voz de primera calidad que suena como el de un ser humano vivo.

nota

La state-of-the-art tecnología que subyace a estas voces se inscribe en el paradigma de la IA generativa para el modelado del lenguaje y la voz. Un efecto secundario de la tecnología es que cualquier actualización de los datos de entrenamiento y del modelo podría provocar ligeras variaciones en la forma en que suenan las voces, incluso en el caso de que su calidad general mejore con las actualizaciones del modelo. Esto podría repercutir en los casos de uso en los que distintas partes del contenido se sintetizan a lo largo de un período de tiempo prolongado (por ejemplo, una temporada de podcasts).

Voces de formato largo disponibles

Amazon Polly ofrece actualmente dos voces largas femeninas y una masculina en formato largo en EE. UU. Estas voces de formato largo también están disponibles en una variante conversacional. NTTS

Idioma Código de idioma Nombre/ID Gender

1

English (EE. UU.)

en-US

Danielle

Gregory

Ruth

Mujer

Hombre

Mujer

Compatibilidad con características y regiones

Las voces de formato largo de Amazon Polly están disponibles en las siguientes regiones:

  • Este de EE. UU. (Norte de Virginia): us-east-1

  • Otras regiones no están disponibles

El motor Amazon Polly Longform admite las siguientes funciones:

  • Operaciones de síntesis de voz asíncronas y en tiempo real.

  • Todas las marcas de voz.

  • Amazon Polly admite muchas SSML etiquetas (pero no todas). Para obtener más información sobre las SSML etiquetas NTTS compatibles, consulte Etiquetas compatibles SSML

  • Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las frecuencias de muestreo válidas para las voces estándar, largas y neuronales son: 8kHz, 16 kHzkHz, 22 o 24. kHz El valor predeterminado para las voces estándar es 22kHz. El valor predeterminado para las voces de formato largo y neuronales es 24kHz. Amazon Polly admite formatos de MP3 transmisión de PCM audio OGG (Vorbis) y sin procesar.

nota

El costo de las voces de formato largo se especifica en la página de información de precios de Amazon Polly.