ロングフォーム音声 - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ロングフォーム音声

Amazon Polly には、人間のような表現力が高く、感情的に熟練した音声を生成するロングフォームエンジンがあります。ロングフォーム音声は、ニュース記事、トレーニング資料、マーケティング動画など、長いコンテンツのリスナーの注意を引くように設計されています。

Amazon Polly ロングフォーム音声は、最先端の深層学習TTSテクノロジーを使用して開発されています。このモデルは、人間の言語の音素、韻律、イントネーション、その他の音声や音響の要素を再現することを学習し、非常に自然な音声出力を実現します。

ロングフォームエンジンは、テキスト埋め込みを使用してテキストの意味を解釈します。テキスト埋め込みを使用すると、ロングフォームエンジンは自然な音声の正しい強調、一時停止、トーンを生成できます。その結果、人間のコミュニケーションに存在する感情的な要素の完全な範囲を組み合わせた音声が得られます。これには、サプリシャルの模倣やナレーションとの対話の区別が含まれます。これらが合わさって、生きている人間のように聞こえるプレミアムな音声製品となっています。

注記

これらの音声の根底にあるテクノロジーは state-of-the-art、言語および音声モデリングのための生成 AI のパラダイム内にあります。テクノロジーの副作用は、トレーニングデータやモデルを更新すると、モデルの更新によって全体的な品質が向上する場合でも、音声のサウンドにわずかな変化が生じる可能性があることです。これは、ポッドキャストのシーズンなど、さまざまなコンテンツパートが長期間にわたって合成されたユースケースに影響を与える可能性があります。

使用可能なロングフォーム音声

Amazon Polly は現在、2 つの女性と 1 つの男性の en-US ロングフォーム音声を提供しています。これらのロングフォーム音声は、会話NTTSバリアントでも利用できます。

[言語] 言語コード 名前/ID 性別

1

英語 (米国)

en-US

Danielle

Gregory

Ruth

女性

女性

機能とリージョンの互換性

Amazon Polly のロングフォーム音声は、次のリージョンで使用できます。

  • 米国東部 (バージニア北部): us-east-1

  • 他のリージョンではご利用いただけません。

Amazon Polly ロングフォームエンジンは、次の機能をサポートしています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • すべてのスピーチマーク

  • 多くの (ただし、すべてではない) SSML タグが Amazon Polly でサポートされています。NTTSでサポートされているSSMLタグの詳細については、「サポートされているSSMLタグ」を参照してください。

  • 標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準音声、ロングフォーム音声、ニューラル音声の有効なサンプリングレートは、8、16kHz、kHz22kHz、または 24 ですkHz。標準音声のデフォルトは 22 ですkHz。ロングフォーム音声とニューラル音声のデフォルトは 24 ですkHz。Amazon Polly は、MP3、 OGG (Vorbis)、および raw PCMオーディオストリーム形式をサポートしています。

注記

ロングフォーム音声のコストは、Amazon Polly の料金情報ページで指定します。