Regiones admitidas Cuotas y tasas de limitación Lexicones de pronunciación SynthesizeSpeech Operaciones de API SpeechSynthesisTask Operaciones de API Speech Synthesis Markup Language (SSML, idioma de marcado de síntesis de voz)

Cuotas en Amazon Polly

Amazon Polly aplica cuotas al tráfico de clientes al rechazar solicitudes excesivas. La cuota predeterminada para las solicitudes SynthesizeSpeech con voces estándar es de 80 transacciones por segundo (tps), en una sola región, para una sola Cuenta de AWS. Si los límites no aumentaran y generara 100 solicitudes SynthesizeSpeech por segundo con una voz estándar, 80 solicitudes por segundo se ejecutarían correctamente y Amazon Polly limitaría 20 solicitudes por segundo. Estas solicitudes devolverían una respuesta con el estado HTTP 400 y un encabezado de respuesta que indicara ThrottlingException. Amazon Polly también limita el tráfico a todas las operaciones en función de la tasa de solicitudes.

Ejemplos de límites de síntesis de voz

Sintetizar las primeras 24 letras del alfabeto inglés letra por letra. Si la síntesis de cada letra tardara menos de 50 milisegundos, con un límite de operación de ocho tps, sintetizar 24 letras tardaría al menos tres segundos. Durante ese tiempo, podría sintetizar hasta ocho letras por segundo. Cualquier otra solicitud se limitaría. Como las solicitudes duran poco tiempo, se sintetizarían en serie sin superponerse.
Sintetizar 16 párrafos de texto. Si cada párrafo se sintetizara y el cliente lo recibiera en su totalidad en dos segundos o menos, con un límite de operación de ocho solicitudes simultáneas, se necesitarían al menos cuatro segundos para sintetizar los 16 artículos. En el primer segundo, podría iniciar hasta ocho solicitudes. Durante las solicitudes simultáneas, cualquier intento de iniciar una nueva síntesis se vería limitado debido al límite de simultaneidad. Puede sintetizar los ocho párrafos restantes después de los dos primeros segundos, una vez finalizado el primer lote de solicitudes.

Tenga en cuenta las siguientes limitaciones al utilizar Amazon Polly.

Temas

Regiones admitidas
Cuotas y tasas de limitación
Lexicones de pronunciación
SynthesizeSpeech Operaciones de API
SpeechSynthesisTask Operaciones de API
Speech Synthesis Markup Language (SSML, idioma de marcado de síntesis de voz)

Regiones admitidas

Para obtener una lista de AWS las regiones en las que Amazon Polly está disponible, consulte Amazon Polly Endpoints and Quotas en. Referencia general de Amazon Web Services

Para ver las regiones que admiten voces generativas, consulte Voces generativas.
Para ver las regiones que apoyan las voces de formato largo, consulte Voces. Long-form
Para ver las regiones que admiten las voces neuronales, consulte Compatibilidad con características y regiones para TTS neuronal.

Cuotas y tasas de limitación

En la siguiente tabla se definen las tasas de limitación por operación de Amazon Polly. Puede utilizar el AWS Management Console para solicitar aumentos de cuota para las cuotas ajustables cuando sea necesario.

Operación	Límite
Lexicon
`DeleteLexicon` `PutLexicon` `GetLexicon` `ListLexicons`	2 transacciones por segundo (tps) cualesquiera de estas operaciones combinados. Ráfaga máxima permitida de 4 tps.
Speech
`DescribeVoices`	80 tps con un límite de ráfaga de 100 tps
`SynthesizeSpeech`	Voz generativa: 8 tps Long-form voz: 8 tps con un límite de ráfaga de 10 tps Voz neuronal: 8 tps con un límite de ráfaga de 10 tps Voz estándar: 80 tps con un límite de ráfaga de 100 tps
`StartSpeechSynthesisTask`	Voz generativa: 1 tps Long-form voz: 1 tps Voz neuronal: 10 tps Voz estándar: 10 tps con un límite de ráfaga de 12 tps
`StartSpeechSynthesisStream`	Voz generativa: 8 tps
`GetSynthesizeSpeechTask` y `ListSynthesizeSpeechTask`	Máximo permitido de 10 tps combinadas

Solicitudes simultáneas

Para la voz generativa, Amazon Polly admite hasta 26 solicitudes simultáneas. Para la voz de formato largo, Amazon Polly admite hasta 26 solicitudes simultáneas. En el caso de la voz neuronal, Amazon Polly admite 8 tps con un límite de ráfaga de 10 tps, para un máximo de 18 solicitudes simultáneas. Amazon Polly también admite límites para las solicitudes simultáneas. En el caso de la voz estándar, Amazon Polly admite 80 tps para un máximo de 80 solicitudes simultáneas.

Para StartSpeechSynthesisStream, Amazon Polly admite hasta 8 solicitudes simultáneas.

Mejores prácticas para mitigar la limitación

Vuelva a instalar las limitaciones en función de los tiempos de retardo y fluctuación de fase para poder repartir la carga en un breve período de tiempo y gestionar los picos de uso inesperados sin comprometer la disponibilidad. AWS Code Sample Catalog ya está configurado para hacerlo de forma predeterminada en muchos idiomas de programación. Consulte Comportamiento de los reintentos para ver los detalles.
Usar las métricas de Amazon Polly. Amazon Polly publica automáticamente CloudWatch para analizar su uso actual y pronosticar su crecimiento.

nota

Antes de solicitar un aumento de cuota (si procede), calcule sus necesidades de tps siguiendo las pautas de esta página. Amazon Polly asegura solo los recursos computacionales necesarios de acuerdo con la demanda de los clientes para mantener sus costos bajos.

Lexicones de pronunciación

Puede almacenar hasta 100 lexicones por cuenta.
Los nombres de los lexicones pueden contener caracteres alfanuméricos y tener una longitud máxima de 20 caracteres.
Cada lexicón puede tener un tamaño máximo de 40 000 caracteres. (Tenga en cuenta que el tamaño del léxico afecta a la latencia de la SynthesizeSpeech operación).
Puede especificar un máximo de 100 caracteres para cada sustitución de <phoneme> o <alias> en un lexicón.

Para obtener más información sobre el uso de los lexicones, consulte Administración de lexicones.

SynthesizeSpeech Operaciones de API

Al estimar el uso de SynthesizeSpeech, tenga en cuenta que el audio producido por Amazon Polly, especialmente para aplicaciones interactivas, suele tardar al menos varios segundos en reproducirse. Esto reduce la tasa de solicitudes para SynthesizeSpeech, incluso para un gran número de consumidores simultáneos. Además, Amazon Polly limita las solicitudes SynthesizeSpeech en función del número de solicitudes simultáneas que sintetiza. No existe una configuración independiente para las solicitudes simultáneas. El límite de solicitudes simultáneas siempre tiene el mismo valor que el número de puntos por segundo permitido y se escala con él.

Ejemplo de aplicación de historia corta. Puede usar Amazon Polly para crear una aplicación que reproduzca una serie de historias cortas. Con este tipo de aplicaciones, se empezaría a reproducir la primera historia, luego la siguiente, y así sucesivamente, hasta que el usuario abandonara la aplicación. Cada historia tardaría unos 0,5 segundos en sintetizarse y 10 segundos en reproducirse. En este escenario, cabría esperar que se produjera una llamada a SynthesizeSpeech por cada 10 segundos que el cliente dedicara a utilizar la aplicación. Esto se traduciría en una llamada por segundo por cada 10 clientes que utilizaran la aplicación simultáneamente. Si tuviera 1000 clientes que utilizaran la aplicación al mismo tiempo, podría esperar que la tarifa media de llamadas a SynthesizeSpeech fuera de solo 100 transacciones por segundo.

Tenga en cuenta los siguientes límites relacionados con el uso de la operación de la API SynthesizeSpeech:

El texto de entrada debe tener un tamaño máximo de 3000 caracteres contabilizados (6000 caracteres totales). Las etiquetas SSML no cuentan como caracteres contabilizados.
Puede especificar hasta cinco lexicones para aplicarlos el texto de entrada.
La secuencia de audio de salida (síntesis) tiene un límite de 10 minutos. Después de esto, se interrumpe cualquier fragmento de voz restante.

Para obtener más información, consulte SynthesizeSpeech.

nota

Puede utilizar la operación de la API StartSythensizeSpeechTask para evitar algunas de las limitaciones de la operación SynthesizeSpeech de la API. Para obtener más información, consulte Archivo de audio largos.

SpeechSynthesisTask Operaciones de API

Tenga en cuenta los siguientes límites relacionados con el uso de las operaciones de la API StartSpeechSynthesisTask, GetSpeechSynthesisTask y ListSpeechSynthesisTasks:

El texto de entrada debe tener un tamaño máximo de 100,000 caracteres contabilizados (200,000 caracteres totales). Las etiquetas SSML no cuentan como caracteres contabilizados.
Puede especificar hasta cinco lexicones para aplicarlos el texto de entrada.

Speech Synthesis Markup Language (SSML, idioma de marcado de síntesis de voz)

Tenga en cuenta los siguientes límites relacionados con el uso de SSML:

No se admiten las etiquetas <audio>, <lexicon>, <lookup> y <voice>.
Los elementos <break> pueden especificar una duración máxima de 10 segundos cada uno.
La etiqueta <prosody> no admite valores inferiores a -80 % en el atributo de velocidad.

Para obtener más información, consulte Generación de fragmentos hablados desde documentos SSML.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de archivos de audio largos

Aplicaciones y código de muestra