Régions prises en charge Quotas et taux d'accélération Lexiques de prononciation SynthesizeSpeech Opérations d'API SpeechSynthesisTask Opérations d'API Synthèse vocale SSML (Markup Language)

Quotas dans Amazon Polly

Amazon Polly applique des quotas au trafic client en rejetant les demandes excessives. Le quota par défaut pour la SynthesizeSpeech demande avec des voix standard est de 80 transactions par seconde (tps), dans une seule région, pour une seule Compte AWS. Si les limites n'augmentaient pas et si vous génériez 100 SynthesizeSpeech demandes par seconde à l'aide d'une voix standard, 80 demandes par seconde aboutiraient et 20 demandes par seconde seraient limitées par Amazon Polly. Ces demandes renverraient une réponse avec le statut HTTP 400 et un en-tête de réponse indiquantThrottlingException. Amazon Polly limite également le trafic vers toutes les opérations en fonction du taux de demandes.

Exemples de limites de synthèse vocale

Synthétisez les 24 premières lettres de l'alphabet anglais, une lettre à la fois. Si la synthèse de chaque lettre prenait moins de 50 millisecondes, avec une limite de fonctionnement de huit tps, la synthèse de 24 lettres prendrait au moins trois secondes. Pendant ce temps, vous pouviez synthétiser jusqu'à huit lettres par seconde. Toute autre demande serait limitée. Comme les demandes durent peu de temps, elles seraient synthétisées en série sans chevauchement.
Synthétisez 16 paragraphes de texte. Si chaque paragraphe était synthétisé et reçu dans son intégralité côté client en deux secondes ou moins, avec une limite d'opération de huit demandes simultanées, il faudrait au moins quatre secondes pour synthétiser les 16 articles. Au cours de la première seconde, vous pouvez lancer jusqu'à huit demandes. Lors de demandes simultanées, toute tentative de démarrage d'une nouvelle synthèse serait limitée en raison de la limite de simultanéité. Vous pouvez synthétiser les huit paragraphes restants après les deux premières secondes, une fois le premier lot de demandes terminé.

Tenez compte des limites suivantes lorsque vous utilisez Amazon Polly.

Régions prises en charge

Pour obtenir la liste des AWS régions dans lesquelles Amazon Polly est disponible, consultez Amazon Polly Endpoints and Quotas dans le. Référence générale d'Amazon Web Services

Pour les régions qui prennent en charge les voix génératives, voir Voix génératives.
Pour les régions qui prennent en charge les voix de longue durée, voir Long-form Voix.
Pour les régions qui prennent en charge les voix neuronales, voir Compatibilité entre les fonctionnalités et les régions pour le TTS neuronal.

Quotas et taux d'accélération

Le tableau suivant définit les taux d'accélération par opération Amazon Polly. Vous pouvez utiliser le AWS Management Console pour demander des augmentations de quotas pour les quotas ajustables en cas de besoin.

Opération	Limite
Lexique
`DeleteLexicon` `PutLexicon` `GetLexicon` `ListLexicons`	2 transactions par seconde (tps) à partir de ces opérations combinées. Maximum autorisé en mode rafale de 4 tps.
Discours
`DescribeVoices`	80 tps avec une limite en mode rafale de 100 tps
`SynthesizeSpeech`	Voix générative : 8 tps Long-form voix : 8 tps avec une limite de rafale de 10 tps Voix neuronale : 8 tps avec une limite en mode rafale de 10 tps Voix standard : 80 tps avec une limite en mode rafale de 100 tps
`StartSpeechSynthesisTask`	Voix générative : 10 tps Long-form voix : 1 cuillère à café Voix neurale : 10 tps Voix standard : 10 tps avec une limite en mode rafale de 12 tps
`StartSpeechSynthesisStream`	Voix générative : 8 tps
`GetSynthesizeSpeechTask` et `ListSynthesizeSpeechTask`	Maximum autorisé de 10 tps combinées

Demandes simultanées

Pour la voix générative, Amazon Polly prend en charge jusqu'à 26 demandes simultanées. Pour les appels vocaux de longue durée, Amazon Polly prend en charge jusqu'à 26 demandes simultanées. Pour la voix neuronale, Amazon Polly prend en charge 8 tps avec une limite de rafale de 10 tps, pour un maximum de 18 requêtes simultanées. Amazon Polly prend également en charge les limites pour les demandes simultanées. Pour la voix standard, Amazon Polly prend en charge 80 tps pour un maximum de 80 demandes simultanées.

En effet StartSpeechSynthesisStream, Amazon Polly prend en charge jusqu'à 8 demandes simultanées.

Bonnes pratiques pour atténuer l'étranglement

Réessayez les accélérateurs avec ralentissement et instabilité afin de répartir la charge sur une courte période et de gérer les pics d'utilisation inattendus sans compromettre la disponibilité. Catalogue d'exemples de code AWS est déjà configuré pour le faire par défaut dans de nombreux langages de programmation. Consultez la section Comportement des nouvelles tentatives pour en savoir plus.
Utilisez les statistiques d'Amazon Polly. Amazon Polly publie automatiquement CloudWatch pour analyser votre utilisation actuelle et prévoir sa croissance.

Note

Avant de demander une augmentation de quota (le cas échéant), calculez vos besoins en TPS en suivant les instructions de cette page. Amazon Polly sécurise uniquement les ressources informatiques requises en fonction de la demande des clients afin de réduire vos coûts.

Lexiques de prononciation

Vous pouvez stocker jusqu'à 100 lexiques par compte.
Les noms des lexiques peuvent être constitués d'une chaîne alphanumérique de 20 caractères maximum.
Chaque lexique peut comporter jusqu'à 40 000 caractères. (Notez que la taille du lexique influe sur la latence de l' SynthesizeSpeech opération.)
Vous pouvez spécifier jusqu'à 100 caractères pour chaque remplacement de <phonème> ou d'<alias> dans un lexique.

Pour plus d'informations sur l'utilisation des lexiques, consultez Gestion des lexiques.

SynthesizeSpeech Opérations d'API

Lorsque vous estimez l'utilisation deSynthesizeSpeech, gardez à l'esprit que le son produit par Amazon Polly, en particulier pour les applications interactives, prend généralement au moins plusieurs secondes pour être lu. Cela réduit le taux de demandesSynthesizeSpeech, même pour un grand nombre de consommateurs simultanés. En outre, Amazon Polly limite les SynthesizeSpeech demandes en fonction du nombre de demandes simultanées qu'elle synthétise. Il n'existe pas de paramètre distinct pour les demandes simultanées. La limite de demandes simultanées a toujours la même valeur que le nombre de tps autorisés et s'adapte à cette limite.

Exemple d'application pour une courte histoire. Vous pouvez utiliser Amazon Polly pour créer une application qui diffuse une série de nouvelles. Avec ce type d'application, la première histoire commence à jouer, puis la suivante, et ainsi de suite, jusqu'à ce que l'utilisateur quitte l'application. Chaque histoire prendrait environ 0,5 seconde pour être synthétisée et 10 secondes pour être jouée. Dans ce scénario, vous pouvez vous attendre à un appel toutes SynthesizeSpeech les 10 secondes que le client passe à utiliser l'application. Cela se traduirait par un appel par seconde pour 10 clients utilisant simultanément l'application. Si 1 000 clients utilisaient simultanément l'application, vous pouvez vous attendre à un taux d'appel moyen SynthesizeSpeech de seulement 100 transactions par seconde.

Notez les limites suivantes liées à l'utilisation de l'opération d'API SynthesizeSpeech :

Le texte d'entrée peut comporter un maximum de 3 000 caractères facturés (6 000 caractères au total). Les balises SSML ne sont pas considérées comme des caractères facturés.
Vous pouvez spécifier jusqu'à cinq lexiques à appliquer au texte saisi.
Le flux audio de sortie (synthèse) est limité à 10 minutes. Une fois cette limite atteinte, tout discours restant est coupé.

Pour de plus amples informations, veuillez consulter SynthesizeSpeech.

Note

Certaines restrictions applicables à l'opération d'API SynthesizeSpeech peuvent être contournées à l'aide de l'opération d'API StartSythensizeSpeechTask. Pour de plus amples informations, veuillez consulter Fichiers audio longs.

SpeechSynthesisTask Opérations d'API

Notez la limite suivante liée à l'utilisation des opérations d'API StartSpeechSynthesisTask, GetSpeechSynthesisTask et ListSpeechSynthesisTasks :

Le texte d'entrée peut comporter un maximum de 100 000 caractères facturés (200 000 caractères au total). Les balises SSML ne sont pas considérées comme des caractères facturés.
Vous pouvez spécifier jusqu'à cinq lexiques à appliquer au texte saisi.

Synthèse vocale SSML (Markup Language)

Notez les limites suivantes liées à l'utilisation du langage SSML :

Les balises <audio>, <lexicon>, <lookup> et <voice> ne sont pas prises en charge.
Les éléments <break> peuvent spécifier une durée maximale de 10 secondes chacun.
La balise <prosody> ne prend pas en charge les valeurs inférieures à -80 % pour l'attribut de taux.

Pour de plus amples informations, veuillez consulter Génération de discours à partir de documents SSML.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création de fichiers audio longs

Exemples de code et d'applications