サポート対象のリージョンクォータとスロットルレート発音レキシコン SynthesizeSpeech API オペレーション SpeechSynthesisTask API オペレーション音声合成マークアップ言語 (SSML)

Amazon Polly のクォータ

Amazon Polly は、過剰なリクエストを拒否することでカスタマートラフィックにクォータを適用します。標準音声の SynthesizeSpeech リクエストのデフォルトクォータは、1 つの AWS アカウントで、1 つのリージョンにおいて 1 秒あたり 80 件のトランザクション (tps) です。制限が引き上げられず、標準の音声を使用して 1 秒あたり 100 件の SynthesizeSpeech リクエストを生成した場合、1 秒あたり 80 件のリクエストが成功し、1 秒あたり 20 件のリクエストが Amazon Polly によってスロットリングされます。これらのリクエストにより、HTTP ステータス 400 のレスポンスと、ThrottlingException を示すレスポンスヘッダーが返されます。また、Amazon Polly はリクエストレートに基づいてすべてのオペレーションへのトラフィックをスロットリングします。

音声合成制限の例

英語のアルファベットの最初の 24 文字を 1 文字ずつ合成する。各文字の合成にかかる時間が 50 ミリ秒未満で、オペレーションの制限が 8 tps の場合、24 文字の合成には少なくとも 3 秒かかります。その間、1 秒あたり最大 8 文字を合成できます。それ以降のリクエストはスロットリングされます。リクエストは短時間しか続かないため、重複することなく連続して合成されます。
16 段落のテキストを合成する。各段落が合成され、クライアント側で 2 秒以内にすべて受信され、同時リクエスト数のオペレーションの制限が 8 件の場合、16 件の記事すべてを合成するには少なくとも 4 秒かかります。最初の 1 秒で、最大 8 件のリクエストを開始できます。同時リクエスト中は、同時実行数の制限により、新しい合成を開始しようとしてもスロットリングされます。最初の 2 秒間、つまり最初のリクエストのバッチが終了した後に、残りの 8 つの段落を合成できるようになります。

Amazon Polly を使用するときは、以下の制限に注意してください。

サポート対象のリージョン

Amazon Polly が利用可能な AWS リージョンのリストについては、のAmazon Polly エンドポイントとクォータ」を参照してくださいAmazon Web Services 全般のリファレンス。

生成音声をサポートするリージョンについては、「生成音声」を参照してください。
ロングフォーム音声をサポートするリージョンについては、「ロングフォーム音声」を参照してください。
ニューラル音声をサポートするリージョンについては、ニューラル TTS の「機能とリージョンの互換性」を参照してください。

クォータとスロットルレート

次の表では、Amazon Polly オペレーションごとのスロットルレートが定義されています。を使用して AWS Management Console 、必要に応じて調整可能なクォータのクォータ引き上げをリクエストできます。

運用	制限
レキシコン
`DeleteLexicon` `PutLexicon` `GetLexicon` `ListLexicons`	これらのオペレーションによる 2 トランザクション/秒 (tps) はすべて結合されます。最大許容バーストは 4 tps です。
音声
`DescribeVoices`	80 tps で、バースト制限は 100 tps
`SynthesizeSpeech`	生成音声: 8 tps ロングフォーム音声: 8 tps、バースト制限は 10 tps ニューラル音声: 8 tps、バースト制限は 10 tps 標準音声: 80 tps、バースト制限は 100 tps
`StartSpeechSynthesisTask`	生成音声: 1 tps ロングフォーム音声: 1 tps ニューラル音声: 10 tps 標準音声: 10 tps、バースト制限は 12 tps
`StartSpeechSynthesisStream`	生成音声: 8 tps
`GetSynthesizeSpeechTask` および `ListSynthesizeSpeechTask`	組み合わせの最大許容は 10 tps

同時実行リクエスト

生成音声の場合、Amazon Polly は最大 26 件の同時リクエストに対応しています。[ロングフォーム音声] の場合、Amazon Polly は最大 26 件の同時リクエストに対応しています。ニューラル音声の場合、Amazon Polly は 8 tps およびバースト制限の 10 tps で、最大 18 件の同時リクエストに対応しています。Amazon Polly は同時リクエストの制限もサポートしています。標準の音声の場合、Amazon Polly は 80 tps で最大 80 件の同時リクエストに対応しています。

StartSpeechSynthesisStream の場合、Amazon Polly は最大 8 つの同時リクエストをサポートします。

スロットリングを軽減するためのベストプラクティス

バックオフとジッターを使用してスロットリングを再試行することで、負荷を短期間で分散させ、可用性を損なうことなく使用量の予期しないピークに対処できます。 AWS Code Sample Catalog は多くのプログラミング言語でこれをデフォルトで行うように既に設定されています。詳細については、「機能のリトライ動作」を参照してください。
Amazon Polly メトリクスを使用する。Amazon Polly は CloudWatch に自動的に発行して、現在の使用量を分析し、使用量の増加を予測します。

注記

クォータの増額をリクエストする前に (該当する場合)、このページのガイドラインに従って必要な TPS を計算してください。Amazon Polly は、コストを低く抑えるために、顧客の需要に応じて必要なコンピューティングリソースのみを確保します。

発音レキシコン

アカウントにつき最大 100 個のレキシコンを保存できます。
レキシコン名は、長さが最大 20 文字の英数字文字列です。
各レキシコンのサイズは最大 40,000 文字です。(レキシコンのサイズが SynthesizeSpeech オペレーションのレイテンシーに影響することに注意してください。)
レキシコンの <phoneme> または <alias> は最大 100 文字と置き換えることができます。

レキシコンの使用については、「レキシコンの管理」を参照してください。

SynthesizeSpeech API オペレーション

SynthesizeSpeech の使用量を見積もるとき、Amazon Polly によって生成された音声は通常、特にインタラクティブアプリケーションを使用する場合、再生に少なくとも数秒かかることに注意してください。これにより、同時コンシューマー数が多い場合は、SynthesizeSpeech へのリクエストの速度が低下します。さらに、Amazon Polly では、合成する同時リクエストの数に応じて SynthesizeSpeech リクエストをスロットリングします。同時リクエストを個別に設定することはできません。同時リクエスト数の上限は常に、許容される tps 数と同じ値で、これに合わせてスケールされます。

短いストーリーのサンプルアプリケーション。Amazon Polly を使用すると、一連の短いストーリーを再生するアプリケーションを作成できます。この種類のアプリケーションでは、ユーザーがアプリケーションを終了するまでは、最初のストーリーが再生され、続いて後続のストーリーが再生されます。各ストーリーの合成には約 0.5 秒かかり、再生には 10 秒かかります。このシナリオでは、顧客がアプリケーションを使用して 10 秒経過するたびに SynthesizeSpeech が 1 回の呼び出されることを想定しています。これは、アプリケーションを同時に使用している顧客 10 人ごとに 1 秒あたり 1 回の呼び出しがあることになります。1000 人の顧客が同時にアプリケーションを使用している場合、SynthesizeSpeech への平均コールレートは 1 秒あたりのトランザクション数は 100 件程度になると予想できます。

SynthesizeSpeech API オペレーションの使用には、以下の制限が関連している点に注意してください。

入力テキストのサイズは、最大 3000 課金対象文字 (合計 6000 文字) です。SSML タグは、課金対象文字としてカウントされません。
入力テキストに適用する最大 5 個のレキシコンを指定できます。
出力オーディオストリーム (合成) は 10 分に制限されています。これに達した後は、残りの音声はカットオフされます。

詳細については、「SynthesizeSpeech」を参照してください。

注記

SynthesizeSpeech API オペレーションのいくつかの制限は、StartSythensizeSpeechTask API を使用して回避することができます。詳細については、「長いオーディオファイル」を参照してください。

SpeechSynthesisTask API オペレーション

StartSpeechSynthesisTask、GetSpeechSynthesisTask、および ListSpeechSynthesisTasks API オペレーションの使用には、以下の制限が関連している点に注意してください。

入力テキストのサイズは、最大 100,000 課金対象文字 (合計 200,000 文字) です。SSML タグは、課金対象文字としてカウントされません。
入力テキストに適用する最大 5 個のレキシコンを指定できます。

音声合成マークアップ言語 (SSML)

SSML の使用には、以下の制限が関連している点に注意してください。

<audio>、<lexicon>、<lookup>、および <voice> タグは、サポートされていません。
<break> エレメントは、それぞれ最大 10 秒の時間を指定できます。
<prosody> タグでは、-80% より小さいレート属性値はサポートされていません。

詳細については、「SSML ドキュメントからの音声の生成」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

長いオーディオファイルの作成

サンプルコードとアプリケーション