長いオーディオファイルの作成

フォーカスモード

長いオーディオファイルの作成 - Amazon Polly

Amazon Polly コンソールでは、非同期の合成と、 AWS CLIで使用できるのと同じ機能を使用して、長い音声を作成できます。これを行うには、他の合成とほぼ同じように、[Text-to-Speech (テキスト読み上げ機能)] タブを使用します。

Console

もう 1 つの非同期の合成機能は、コンソールでも利用できます。[S3 synthesis tasks (S3 合成タスク)] タブには、ListSpeechSynthesisTasks 機能が反映され、S3 バケットに保存されたすべてのタスクが表示され、必要な場合にはフィルタを使用できます。特定の 1 つのタスクをクリックすると、GetSpeechSynthesisTask 機能が反映された詳細が表示されます。

Amazon Polly コンソールを使用して大きなテキストを合成するには

にサインイン AWS Management Console し、https://console.aws.amazon.com/polly/ で Amazon Polly コンソールを開きます。
[Text-to-Speech (テキスト読み上げ機能)] タブを選択します。必要に応じて、エンジンとして [ロングフォーム] を選択します。
SSML をオンまたはオフにして、テキストを入力ボックスに入力するか、または貼り付けます。
テキストの言語、リージョン、および音声を選択します。
[Save to S3] (S3 に保存) を選択します。

注記
テキストの長さがリアルタイム SynthesizeSpeech オペレーションの制限である 3,000 文字を超える場合、[ダウンロード] オプションと [音声を聴く] オプションの両方がグレー表示されます。
コンソールでフォームが開き、出力ファイルの保存先を選択できます。
1. 宛先 Amazon S3 バケットの名前を入力します。
2. 必要に応じて、出力のプレフィックスキーを入力します。
  
  注記
  出力 S3 バケットは書き込み可能である必要があります。
3. 合成タスクが完了したら通知を受け取る場合は、オプションの SNS トピック ID を提供します。
  
  注記
  現在のコンソールユーザーがこのオプションを使用する場合、SNS は発行するために開いている必要があります。詳細については、「Amazon Simple Notification Service (SNS)」を参照してください。
4. [Save to S3] (S3 に保存) を選択します。

音声合成タスクの情報を取得するには

コンソールで、[S3 Synthesis Tasks (S3 合成タスク)] タブを選択します。
タスクは、日付順に表示されます。タスクをステータスでフィルタリングするには、[All statuses] (すべてのステータス) を選択して、使用するステータスを選択します。
特定のタスクの詳細を表示するには、リンクされた [Task ID (タスク ID)] を選択します。

AWS CLI

Amazon Polly の非同期の合成機能は、3 つの SpeechSynthesisTask API を使用して大量のテキストを操作します。

StartSpeechSynthesisTask: 新しい合成タスクを開始します。
GetSpeechSynthesisTask: 以前に送信された合成タスクの詳細を返します。
ListSpeechSynthesisTasks: 送信された合成タスクを一覧表示します。

大量のテキストの合成 (StartSpeechSynthesisTask)

リアルタイム SynthesizeSpeech で作成できるオーディオファイルよりも大きなオーディオファイルを作成する場合、StartSpeechSynthesisTask オペレーションを使用します。SynthesizeSpeech オペレーションに必要な引数に加えて、StartSpeechSynthesisTask には Amazon S3 バケットの名前も必要です。タスクに関するステータス通知を受信する場合、他の 2 つのオプションの引数 (出力ファイルのキープレフィックス、および SNS トピックの ARN) を指定することもできます。

OutputS3BucketName: 合成をアップロードする Amazon S3バケットの名前。このバケットは Amazon Polly サービスと同じリージョンで作成される必要があります。さらに、呼び出しに使用されている IAM ユーザーにはこのバケットへのアクセス権が必要です。[必須]
OutputS3KeyPrefix: 出力ファイルのキープレフィックス。お使いのバケット内のカスタムディレクトリのようなキーに出力音声ファイルを保存する場合は、このパラメータを使用します。[オプション]
SnsTopicArn: タスクのステータスに関する通知を受け取る場合に使用する SNS トピックの ARN。この SNS トピックは Amazon Polly サービスと同じリージョンで作成される必要があります。さらに、呼び出しに使用されている IAM ユーザーにはこのトピックへのアクセス権が必要です。[オプション]

例えば、次の例を使用して、米国東部 (オハイオ) リージョンで start-speech-synthesis-task AWS CLI コマンドを実行できます。

次の AWS CLI 例は、Unix、Linux、macOS 用にフォーマットされています。Windows の場合は、各行末のバックスラッシュ (\) Unix 連結文字をカレット (^) に置き換え、入力テキストは二重引用符 (") で囲み、内部タグは一重引用符 (') で囲みます。


aws polly start-speech-synthesis-task \
  --region us-east-2 \
  --endpoint-url "https://polly.us-east-2.amazonaws.com/" \
  --output-format mp3 \
  --output-s3-bucket-name your-bucket-name \
  --output-s3-key-prefix optional/prefix/path/file \
  --voice-id Joanna \
  --text file://text_file.txt

これにより、次のような応答が得られます。


"SynthesisTask": 
{
     "OutputFormat": "mp3",
     "OutputUri": "https://s3.us-east-2.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3",
     "TextType": "text",
     "CreationTime": [..],
     "RequestCharacters": [..],
     "TaskStatus": "scheduled",
     "TaskId": [task_id],
     "VoiceId": "Joanna"
 }

start-speech-synthesis-task オペレーションは、複数の新しいフィールドを返します。

OutputUri: 出力音声ファイルの場所。
TaskId: Amazon Polly で生成された音声合成タスクの一意の識別子。
CreationTime: タスクが最初に送信された時刻のタイムスタンプ。
RequestCharacters: タスク内の請求可能な文字の数。
TaskStatus: 送信されたタスクのステータスに関する情報を提供します。

タスクが送信されると、最初のステータス scheduled が表示されます。Amazon Polly がタスクの処理を開始すると、ステータスが inProgress に変わり、さらに completed または failed へと変化します。タスクが失敗した場合は、GetSpeechSynthesisTask または ListSpeechSynthesisTasks オペレーションを呼び出すときに、エラーメッセージが返されます。

タスクが完了すると、OutputUri で指定した場所で、音声ファイルが利用できます。

音声合成タスクの情報の取得

エラー、ステータスなどのタスクの情報を取得するには、GetSpeechSynthesisTask オペレーションを使用します。これを行うには、task-id によって返される StartSpeechSynthesisTask が必要です。

例えば、次の例を使用して get-speech-synthesis-task AWS CLI コマンドを実行できます。


aws polly get-speech-synthesis-task \
--region us-east-2 \
--endpoint-url "https:// polly.us-east-2.amazonaws.com/" \
--task-id task identifier

ListSpeechSynthesisTasks オペレーションを使用して、現在のリージョンで実行したすべての音声合成タスクを一覧表示することもできます。

例えば、次の例を使用して list-speech-synthesis-tasks AWS CLI コマンドを実行できます。


aws polly list-speech-synthesis-tasks \
--region us-east-2 \
--endpoint-url "https:// polly.us-east-2.amazonaws.com/"

anchor anchor

Amazon Polly コンソールを使用して大きなテキストを合成するには

にサインイン AWS Management Console し、https://console.aws.amazon.com/polly/ で Amazon Polly コンソールを開きます。
[Text-to-Speech (テキスト読み上げ機能)] タブを選択します。必要に応じて、エンジンとして [ロングフォーム] を選択します。
SSML をオンまたはオフにして、テキストを入力ボックスに入力するか、または貼り付けます。
テキストの言語、リージョン、および音声を選択します。
[Save to S3] (S3 に保存) を選択します。

注記
テキストの長さがリアルタイム SynthesizeSpeech オペレーションの制限である 3,000 文字を超える場合、[ダウンロード] オプションと [音声を聴く] オプションの両方がグレー表示されます。
コンソールでフォームが開き、出力ファイルの保存先を選択できます。
1. 宛先 Amazon S3 バケットの名前を入力します。
2. 必要に応じて、出力のプレフィックスキーを入力します。
  
  注記
  出力 S3 バケットは書き込み可能である必要があります。
3. 合成タスクが完了したら通知を受け取る場合は、オプションの SNS トピック ID を提供します。
  
  注記
  現在のコンソールユーザーがこのオプションを使用する場合、SNS は発行するために開いている必要があります。詳細については、「Amazon Simple Notification Service (SNS)」を参照してください。
4. [Save to S3] (S3 に保存) を選択します。

音声合成タスクの情報を取得するには

コンソールで、[S3 Synthesis Tasks (S3 合成タスク)] タブを選択します。
タスクは、日付順に表示されます。タスクをステータスでフィルタリングするには、[All statuses] (すべてのステータス) を選択して、使用するステータスを選択します。
特定のタスクの詳細を表示するには、リンクされた [Task ID (タスク ID)] を選択します。