ロングフォーム音声 - Amazon Polly

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ロングフォーム音声

Amazon Polly には、人間のような表現力が高く、感情的に熟練した音声を生成するロングフォームエンジンがあります。ロングフォーム音声は、ニュース記事、トレーニング資料、マーケティング動画など、長いコンテンツのリスナーの注意を引くように設計されています。

Amazon Polly ロングフォーム音声は、最先端の深層学習TTSテクノロジーを使用して開発されています。このモデルは、人間の言語の音素、韻律、イントネーション、その他の音声や音響の要素を再現することを学習し、非常に自然な音声出力を実現します。

ロングフォームエンジンは、テキスト埋め込みを使用してテキストの意味を解釈します。テキスト埋め込みを使用すると、ロングフォームエンジンは自然な音声の正しい強調、一時停止、トーンを生成できます。その結果、人間のコミュニケーションに存在する感情的な要素の全範囲を組み合わせた音声が得られます。これには、驚異的な対話を模倣したり、対話をナレーションと区別したりすることが含まれます。これらが合わさって、生きている人間のように聞こえるプレミアムな音声製品となっています。

注記

これらの音声の基礎となる state-of-the-art テクノロジーは、言語および音声モデリングの生成 AI のパラダイムに含まれます。テクノロジーの副作用は、トレーニングデータとモデルを更新すると、モデルの更新によって全体的な品質が向上する場合でも、音声のサウンドにわずかなばらつきが生じる可能性があることです。これは、ポッドキャストの季節など、長期間にわたって合成されたさまざまなコンテンツパートを持つユースケースに影響を与える可能性があります。

使用可能なロングフォーム音声

Amazon Polly は現在、2 つの女性と 1 つの男性の en-US ロングフォーム音声を提供しています。これらのロングフォーム音声は、会話型NTTSバリアントでも使用できます。

[言語] 言語コード 名前/ID 性別

1

英語 (米国)

en-US

Danielle

Gregory

Ruth

女性

女性

機能とリージョンの互換性

Amazon Polly のロングフォーム音声は、次のリージョンで使用できます。

  • 米国東部 (バージニア北部): us-east-1

  • 他のリージョンではご利用いただけません。

Amazon Polly ロングフォームエンジンは、次の機能をサポートしています。

  • リアルタイムおよび非同期の音声合成オペレーション。

  • すべてのスピーチマーク

  • Amazon Polly では、多くの (すべてではない) SSML タグがサポートされています。NTTSでサポートされているSSMLタグの詳細については、「サポートされているSSMLタグ」を参照してください。

  • 標準音声と同様に、さまざまなサンプリングレートから選択して、アプリケーションの帯域幅と音質を最適化できます。標準音声、ロングフォーム音声、ニューラル音声の有効なサンプリングレートは、8kHz、16kHz、22kHz、または 24 ですkHz。標準音声のデフォルトは 22 ですkHz。ロングフォーム音声とニューラル音声のデフォルトは 24 ですkHz。Amazon Polly はMP3、、 OGG (Vorbis)、および raw PCMオーディオストリーム形式をサポートしています。

注記

ロングフォーム音声のコストは、Amazon Polly の料金情報ページ で指定します。

コンソールでのロングフォームエンジンの使用

Amazon Polly コンソールまたは を使用してAmazon Pollyのロングフォーム音声にアクセスできます。 AWS CLI.

コンソールでロングフォームエンジンを使用するには
  1. で Amazon Polly コンソールを開きますhttps://console.aws.amazon.com/polly/

  2. Amazon Polly コンソールから、ロングフォームエンジンを選択します。

  3. 音声ドロップダウンメニューから目的の音声を選択します。

  4. 選択したテキストでTTSオーディオを生成します。

注記

ロングフォーム音声は、 SynthesizeSpeechおよび StartSpeechSynthesisTaskAPIオペレーションでも使用できます。API オペレーションでは、APIリクエストでエンジンと音声の名前を指定できます。その他のクイックスタートコードサンプルについては、こちらをご覧ください。