データの入力および出力 - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データの入力および出力

Amazon Transcribe は、音声データを Amazon S3 バケットまたはメディアストリーム内のメディアファイルとして受け取り、テキストデータに変換します。

Amazon S3 バケットに保存されているメディアファイルを文字起こしする場合は、バッチ文字起こし を実行します。メディアストリームを文字起こしする場合は、ストリーミング文字起こしを実行していることになります。この 2 つのプロセスには、異なるルールと要件があります。

バッチ文字起こしでは、すべての文字起こしジョブを同時に処理する必要がない場合、Job キューイング を使用します。これにより、 Amazon Transcribe は文字起こしジョブを追跡し、スロットが使用可能になったときに処理できます。

注記

Amazon Transcribe は、分析モデルの品質を継続的に向上させるために、コンテンツを一時的に保存することがあります。詳細については、Amazon Transcribe FAQ「」を参照してください。によって保存された可能性のあるコンテンツの削除をリクエストするには Amazon Transcribe、 でケースを開きますAWS Support

メディア形式

サポートされるメディアタイプは、バッチ文字起こしとストリーミング文字起こしでは異なりますが、どちらにも可逆形式が推奨されます。詳細については次の表を参照してください。

バッチ

ストリーミング

サポートされる形式

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCM エンコーディング

推奨形式

  • FLAC

  • WAV 16 PCM ビットエンコーディング

  • FLAC

  • PCM 署名付き 16 ビットリトルエンディアンオーディオ (これには が含まれないことに注意してくださいWAV)

最良の結果を得るには、16 ビットエンコーディングWAVで FLACや PCM などの可逆形式を使用します。

注記

ストリーミング文字起こしは、すべての言語でサポートされているわけではありません。詳細については、サポートされている言語の表の「データ入力」列を参照してください。

音声チャネル

Amazon Transcribe は、シングルチャネルとデュアルチャネルのメディアをサポートしています。2 チャネルを超えるメディアは現在サポートされていません。

音声の 1 つのチャネルに複数のスピーカーが含まれていて、文字起こし出力で各スピーカーを分割してラベル付けしたい場合は、スピーカーパーティショニング (ダイアライゼーション) を使用できます。

音声に 2 つの異なるチャンルの音声が含まれている場合は、チャネル識別を使用して、トランスクリプト内の各チャネルを個別に文字起こしできます。

これらのオプションはどちらも 1 つのトランスクリプトファイルを作成します。

注記

スピーカーパーティショニングまたはチャネル識別を有効にしない場合、トランスクリプトテキストは 1 つの連続したセクションとして提供されます。

サンプルレート

バッチ文字起こしジョブでは、サンプルレートを選択することもできますが、このパラメータはオプションです。リクエストに含める場合は、指定する値が音声の実際のサンプルレートと一致することを確認します。音声と一致しないサンプルレートを指定すると、ジョブが失敗することがあります。

ストリーミング文字起こしでは、リクエストにサンプルレートを含める必要があります。バッチ文字起こしジョブと同様に、指定する値が音声の実際のサンプルレートと一致していることを確認します。

電話録音などの低音質音声のサンプルレートは、通常 8,000 Hz を使用します。高忠実度オーディオの場合、 は 16,000 Hz から 48,000 Hz までの値 Amazon Transcribe をサポートします。

出力

文字起こし出力は JSON形式です。トランスクリプトの最初の部分には、トランスクリプトそのものが段落形式で含まれ、その後に単語と句読点ごとに追加データが続きます。提供されるデータは、リクエストに含めた機能によって異なります。少なくとも、トランスクリプトにはすべての単語の開始時刻、終了時刻、および信頼スコアが含まれます。次のセクションでは、追加のオプションや機能を含まない基本的な文字起こしリクエストの出力例を示しています。

すべてのバッチ文字起こしは Amazon S3 バケットに保存されます。トランスクリプトを独自の Amazon S3 バケットに保存するか、安全なデフォルトバケット Amazon Transcribe を使用するかを選択できます。 Amazon S3 バケットの作成と使用について詳しくは、「バケットの使用」を参照してください。

自分の所有する Amazon S3 バケットにトランスクリプトを保存する場合は、文字起こしリクエストURIでバケットの を指定します。バッチ文字起こしジョブを開始する前に、必ずこのバケットの Amazon Transcribe 書き込みアクセス許可を付与してください。独自のバケットを指定した場合、トランスクリプトは削除するまでそのバケットに残ります。

Amazon S3 バケットを指定しない場合、 は安全なサービスマネージドバケット Amazon Transcribe を使用し、トランスクリプトのダウンロードURIに使用できる一時的な を提供します。一時 URIsは 15 分間有効です。提供された の使用時にAccessDeniedエラーが発生した場合はURI、トランスクリプトの新しい一時 を取得するようにGetTranscriptionJobリクエストURIしてください。

デフォルトバケットを選択した場合、ジョブの有効期限 (90 日) になると、トランスクリプトは削除されます。この有効期限を過ぎてもトランスクリプトを保存したい場合は、ダウンロードする必要があります。

ストリーミングトランスクリプトは、ストリームに使用しているのと同じ方法で返されます。

ヒント

JSON 出力を Word 形式の turn-by-turn トランスクリプトに変換する場合は、このGitHub 例 (Python3 の場合) を参照してください。このスクリプトは、通話後分析文字起こしや、ダイアライゼーションが有効になっている標準のバッチ文字起こしで動作します。

出力例

文字起こしは、段落形式で完全な文字起こしを提供し、その後に word-for-word 内訳が続きます。これにより、すべての単語と句読点のデータが提供されます。これには、開始時間、終了時間、信頼スコア、タイプ (pronunciation または punctuation) が含まれます。

次の例は、追加機能を含まないシンプルなバッチ文字起こしジョブのものです。文字起こしリクエストに追加機能を適用するたびに、文字起こし出力ファイルに追加のデータが追加されます。

基本的なバッチ文字起こしには主に以下の 2 つのセクションがあります。

  1. transcripts: 1 つのテキストブロックにトランスクリプト全体が含まれます。

  2. items: transcripts セクションの各単語と句読点に関する情報が含まれます。

  3. audio_segments: オーディオセグメントは、中断のない音声言語を含む音声録音の特定部分で、一時停止や中断を最小限に抑えます。このセグメントは自然な音声フローをキャプチャし、開始時刻と終了時刻audio_segmentsでキャプチャします。オーディオセグメント内の items要素は、セグメント内の各項目に対応する一連の識別子です。

文字起こしリクエストに追加機能を含めるたびに、トランスクリプトに追加情報が生成されます。

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }