Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Voces generativas
El motor generativo text-to-speech (TTS) de Amazon Polly ofrece las voces conversacionales más parecidas a las humanas, emocionalmente comprometidas y adaptables disponibles para su uso a través de la consola Amazon Polly.
El motor Generative es el modelo Amazon TTS Polly más grande hasta la fecha. Implementa un transformador de mil millones de parámetros que convierte el texto sin procesar en códigos de voz, seguido de un decodificador basado en la convolución que convierte estos códigos de voz en formas de onda de forma gradual y reproducible. Este método demuestra las capacidades emergentes de los modelos lingüísticos de gran tamaño (LLMs), de las que se habla ampliamente, cuando se entrenan con volúmenes cada vez mayores de datos patentados y disponibles al público, que comprenden una variedad de voces, idiomas y estilos.
El motor generativo crea un discurso sintético que es emocionalmente atractivo, asertivo y muy coloquial, de una manera notablemente similar a la voz humana. Puedes usar estas voces como un asistente de atención al cliente experto, un entrenador virtual o un anunciante con un discurso sintético casi humano.
nota
La state-of-the-art tecnología en la que se basan estas voces se inscribe en el paradigma de la IA generativa para el modelado del lenguaje y la voz. Un efecto secundario de la tecnología es que cualquier actualización de los datos de entrenamiento y del modelo podría provocar ligeras variaciones en la forma en que suenan las voces, incluso en el caso de que su calidad general mejore con las actualizaciones del modelo. Esto podría repercutir en los casos de uso en los que distintas partes del contenido se sintetizan a lo largo de un período de tiempo prolongado (por ejemplo, una temporada de podcasts).
Voces generativas disponibles
Amazon Polly ofrece actualmente siete voces en una variante generativa. Estas voces generativas también están disponibles en una variante conversacional. NTTS
Idioma | Código de idioma | Nombre/ID | Gender | |
---|---|---|---|---|
1 |
Inglés (Australia) |
en-AU |
Olivia |
Mujer |
2 |
Inglés (Reino Unido) |
en-GB |
Amy |
Mujer |
3 |
English (EE. UU.) |
en-US |
Danielle |
Mujer |
4 |
English (EE. UU.) |
en-US |
Joanna |
Mujer |
5 |
English (EE. UU.) |
en-US |
Matthew |
Hombre |
6 |
English (EE. UU.) |
en-US |
Ruth |
Mujer |
7 |
English (EE. UU.) |
en-US |
Stephen |
Hombre |
nota
El costo de Generative Voices se especifica en la página de información de precios de Amazon Polly
Compatibilidad con características y regiones
Las voces generativas de Amazon Polly están disponibles en las siguientes regiones:
-
Este de EE. UU. (Norte de Virginia): us-east-1
-
Europa (Fráncfort) eu-central-1
-
EE.UU. Oeste (Oregón): us-west-2
-
Otras regiones no están disponibles
Las siguientes funciones son compatibles con las voces generativas:
-
Operaciones de síntesis de voz asíncronas y en tiempo real.
-
El motor generativo no admite el estilo de hablar del presentador de noticias.
-
Amazon Polly admite muchas SSML etiquetas (pero no todas). Para obtener más información sobre las SSML etiquetas NTTS compatibles, consulte Etiquetas compatibles SSML
-
Al igual que ocurre con las voces estándar, puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Las frecuencias de muestreo válidas para las voces estándar y neuronales son 8kHz, 16 kHzkHz, 22 o 24kHz. El valor predeterminado para las voces estándar es 22kHz. El valor predeterminado para las voces generativas es 24kHz. Amazon Polly admite formatos de MP3 transmisión de PCM audio OGG (Vorbis) y sin procesar.
El soporte para generar marcas de voz no está disponible actualmente.
nota
En el improbable caso de que se produzca una alucinación simulada (y dado el modelo de comportamiento del motor generativo, que consiste en reproducir el discurso símbolo por símbolo), se impone un mecanismo de parada de emergencia. El mecanismo incorporado impide que el modelo siga reproduciendo la voz. Esta medida de seguridad se basa en un análisis de datos en el que el modelo tiene el potencial de alucinar, normalmente al final de la frase.
Puede haber casos en los que el modelo piense que va a alucinar y acabe cortando una palabra durante un escalón generacional, traduciendo así la mitad de la palabra. Esto podría generar resultados inapropiados.