Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cuotas en Amazon Polly
Amazon Polly aplica cuotas al tráfico de clientes al rechazar solicitudes excesivas. La cuota predeterminada para las solicitudes SynthesizeSpeech
con voces estándar es de 80 transacciones por segundo (tps), en una sola región, para una sola Cuenta de AWS. Si los límites no aumentaran y generara 100 solicitudes SynthesizeSpeech
por segundo con una voz estándar, 80 solicitudes por segundo se ejecutarían correctamente y Amazon Polly limitaría 20 solicitudes por segundo. Estas solicitudes devolverían una respuesta con el estado HTTP 400 y un encabezado de respuesta que indicara ThrottlingException
. Amazon Polly también limita el tráfico a todas las operaciones en función de la tasa de solicitudes.
Ejemplos de límites de síntesis de voz
-
Sintetizar las primeras 24 letras del alfabeto inglés letra por letra. Si la síntesis de cada letra tardara menos de 50 milisegundos, con un límite de operación de ocho tps, sintetizar 24 letras tardaría al menos tres segundos. Durante ese tiempo, podría sintetizar hasta ocho letras por segundo. Cualquier otra solicitud se limitaría. Como las solicitudes duran poco tiempo, se sintetizarían en serie sin superponerse.
-
Sintetizar 16 párrafos de texto. Si cada párrafo se sintetizara y el cliente lo recibiera en su totalidad en dos segundos o menos, con un límite de operación de ocho solicitudes simultáneas, se necesitarían al menos cuatro segundos para sintetizar los 16 artículos. En el primer segundo, podría iniciar hasta ocho solicitudes. Durante las solicitudes simultáneas, cualquier intento de iniciar una nueva síntesis se vería limitado debido al límite de simultaneidad. Puede sintetizar los ocho párrafos restantes después de los dos primeros segundos, una vez finalizado el primer lote de solicitudes.
Tenga en cuenta las siguientes limitaciones al utilizar Amazon Polly.
Temas
Regiones de admitidas
Para obtener una lista de AWS las regiones en las que Amazon Polly está disponible, consulte Amazon Polly Endpoints and Quotas en. Referencia general de Amazon Web Services
-
Para ver las regiones que apoyan las voces generativas, consulte Voces generativas.
-
Para las regiones que admiten voces de formato largo, consulte Voces de formato largo.
-
Para ver las regiones que admiten las voces neuronales, consulte Compatibilidad con características y regiones para TTS neuronal.
Cuotas y tasas de limitación
En la siguiente tabla se definen las tasas de limitación por operación de Amazon Polly. Puede utilizar el AWS Management Console para solicitar aumentos de cuota para las cuotas ajustables cuando sea necesario.
Operación |
Límite |
---|---|
Lexicon |
|
|
2 transacciones por segundo (tps) cualesquiera de estas operaciones combinados. Ráfaga máxima permitida de 4 tps. |
Speech |
|
|
80 tps con un límite de ráfaga de 100 tps |
|
Voz generativa: 8 tps Voz de formato largo: 8 tps con un límite de ráfaga de 10 tps Voz neuronal: 8 tps con un límite de ráfaga de 10 tps Voz estándar: 80 tps con un límite de ráfaga de 100 tps |
|
Voz generativa: 1 tps Voz de formato largo: 1 tps Voz neuronal: 1 tps Voz estándar: 10 tps con un límite de ráfaga de 12 tps |
|
Máximo permitido de 10 tps combinadas |
Solicitudes simultáneas
En el caso de la voz generativa, Amazon Polly admite hasta 26 solicitudes simultáneas. Para la voz de formato largo, Amazon Polly admite hasta 26 solicitudes simultáneas. En el caso de la voz neuronal, Amazon Polly admite 8 tps con un límite de ráfaga de 10 tps, para un máximo de 18 solicitudes simultáneas. Amazon Polly también admite límites para las solicitudes simultáneas. En el caso de la voz estándar, Amazon Polly admite 80 tps para un máximo de 80 solicitudes simultáneas.
Mejores prácticas para mitigar la limitación
-
Vuelva a instalar las limitaciones en función de los tiempos de retardo y fluctuación de fase para poder repartir la carga en un breve período de tiempo y gestionar los picos de uso inesperados sin comprometer la disponibilidad. AWS Code Sample Catalog ya está configurado para hacerlo de forma predeterminada en muchos idiomas de programación. Consulte Comportamiento de los reintentos para ver los detalles.
-
Usar las métricas de Amazon Polly. Amazon Polly publica automáticamente CloudWatch para analizar su uso actual y pronosticar su crecimiento.
nota
Antes de solicitar un aumento de cuota (si procede), calcule sus necesidades de tps siguiendo las pautas de esta página. Amazon Polly asegura solo los recursos computacionales necesarios de acuerdo con la demanda de los clientes para mantener sus costos bajos.
Lexicones de pronunciación
-
Puede almacenar hasta 100 lexicones por cuenta.
-
Los nombres de los lexicones pueden contener caracteres alfanuméricos y tener una longitud máxima de 20 caracteres.
-
Cada lexicón puede tener un tamaño máximo de 40 000 caracteres. (Tenga en cuenta que el tamaño del léxico afecta a la latencia de la SynthesizeSpeech operación).
-
Puede especificar un máximo de 100 caracteres para cada sustitución de <phoneme> o <alias> en un lexicón.
Para obtener más información sobre el uso de los lexicones, consulte Gestión de léxicos.
SynthesizeSpeech Operaciones de API
Al estimar el uso de SynthesizeSpeech
, tenga en cuenta que el audio producido por Amazon Polly, especialmente para aplicaciones interactivas, suele tardar al menos varios segundos en reproducirse. Esto reduce la tasa de solicitudes para SynthesizeSpeech
, incluso para un gran número de consumidores simultáneos. Además, Amazon Polly limita las solicitudes SynthesizeSpeech
en función del número de solicitudes simultáneas que sintetiza. No existe una configuración independiente para las solicitudes simultáneas. El límite de solicitudes simultáneas siempre tiene el mismo valor que el número de puntos por segundo permitido y se escala con él.
Ejemplo de aplicación de historia corta. Puede usar Amazon Polly para crear una aplicación que reproduzca una serie de historias cortas. Con este tipo de aplicaciones, se empezaría a reproducir la primera historia, luego la siguiente, y así sucesivamente, hasta que el usuario abandonara la aplicación. Cada historia tardaría unos 0,5 segundos en sintetizarse y 10 segundos en reproducirse. En este escenario, cabría esperar que se produjera una llamada a SynthesizeSpeech
por cada 10 segundos que el cliente dedicara a utilizar la aplicación. Esto se traduciría en una llamada por segundo por cada 10 clientes que utilizaran la aplicación simultáneamente. Si tuviera 1000 clientes que utilizaran la aplicación al mismo tiempo, podría esperar que la tarifa media de llamadas a SynthesizeSpeech
fuera de solo 100 transacciones por segundo.
Tenga en cuenta los siguientes límites relacionados con el uso de la operación de la API SynthesizeSpeech
:
-
El texto de entrada debe tener un tamaño máximo de 3000 caracteres contabilizados (6000 caracteres totales). Las etiquetas SSML no cuentan como caracteres contabilizados.
-
Puede especificar hasta cinco lexicones para aplicarlos el texto de entrada.
-
La secuencia de audio de salida (síntesis) tiene un límite de 10 minutos. Después de esto, se interrumpe cualquier fragmento de voz restante.
Para obtener más información, consulte SynthesizeSpeech.
nota
Puede utilizar la operación de la API StartSythensizeSpeechTask
para evitar algunas de las limitaciones de la operación SynthesizeSpeech
de la API. Para obtener más información, consulte Archivos de audio largos.
SpeechSynthesisTask Operaciones de API
Tenga en cuenta los siguientes límites relacionados con el uso de las operaciones de la API StartSpeechSynthesisTask
, GetSpeechSynthesisTask
y ListSpeechSynthesisTasks
:
-
El texto de entrada debe tener un tamaño máximo de 100,000 caracteres contabilizados (200,000 caracteres totales). Las etiquetas SSML no cuentan como caracteres contabilizados.
-
Puede especificar hasta cinco lexicones para aplicarlos el texto de entrada.
Speech Synthesis Markup Language (SSML, idioma de marcado de síntesis de voz)
Tenga en cuenta los siguientes límites relacionados con el uso de SSML:
-
No se admiten las etiquetas
<audio>
,<lexicon>
,<lookup>
y<voice>
. -
Los elementos
<break>
pueden especificar una duración máxima de 10 segundos cada uno. -
La etiqueta
<prosody>
no admite valores inferiores a -80 % en el atributo de velocidad.
Para obtener más información, consulte Generación de voz a partir de SSML documentos.