データの入力および出力

Amazon Transcribe は、音声データを Amazon S3 バケットまたはメディアストリームのメディアファイルとして受け取り、テキストデータに変換します。

Amazon S3 バケットに保存されているメディアファイルを文字起こしする場合は、バッチ文字起こしを実行します。メディアストリームを文字起こしする場合は、ストリーミング文字起こしを実行していることになります。この 2 つのプロセスには、異なるルールと要件があります。

バッチ文字起こしでは、すべての文字起こしジョブを同時に処理する必要がない場合、ジョブキューイングを使用します。これにより、 Amazon Transcribe は文字起こしジョブを追跡し、スロットが使用可能になったときに処理できます。

注記

Amazon Transcribe は、分析モデルの品質を継続的に向上させるために、コンテンツを一時的に保存することがあります。詳細については、「Amazon Transcribe よくある質問」を参照してください。によって保存されている可能性のあるコンテンツの削除をリクエストするには Amazon Transcribe、でケースを開きますサポート。

メディア形式

サポートされるメディアタイプは、バッチ文字起こしとストリーミング文字起こしでは異なりますが、どちらにも可逆形式が推奨されます。詳細については次の表を参照してください。

	バッチ	ストリーミング
サポートされる形式	AMR FLAC M4A MP3 MP4 Ogg WebM WAV	FLAC Ogg Opus PCM エンコーディング
推奨形式	FLAC PCM 16 ビットエンコーディングの WAV	FLAC PCM 16 ビット符号付きリトルエンディアンの音声 (WAV は含まない)

最良の結果を得るには、FLAC または PCM 16 ビットエンコーディングの WAV などの可逆形式を使用します。

注記

ストリーミング文字起こしは、すべての言語でサポートされているわけではありません。詳細については、サポートされている言語の表の「データ入力」列を参照してください。

音声チャネル

Amazon Transcribe は、シングルチャネルとデュアルチャネルのメディアをサポートしています。2 チャネルを超えるメディアは現在サポートされていません。

音声の 1 つのチャネルに複数のスピーカーが含まれていて、文字起こし出力で各スピーカーを分割してラベル付けしたい場合は、スピーカーパーティショニング (ダイアライゼーション) を使用できます。

音声に 2 つの異なるチャンルの音声が含まれている場合は、チャネル識別を使用して、トランスクリプト内の各チャネルを個別に文字起こしできます。

これらのオプションはどちらも 1 つのトランスクリプトファイルを作成します。

注記

スピーカーパーティショニングまたはチャネル識別を有効にしない場合、トランスクリプトテキストは 1 つの連続したセクションとして提供されます。

サンプルレート

バッチ文字起こしジョブでは、サンプルレートを選択することもできますが、このパラメータはオプションです。リクエストに含める場合は、指定する値が音声の実際のサンプルレートと一致することを確認します。音声と一致しないサンプルレートを指定すると、ジョブが失敗することがあります。

ストリーミング文字起こしでは、リクエストにサンプルレートを含める必要があります。バッチ文字起こしジョブと同様に、指定する値が音声の実際のサンプルレートと一致していることを確認します。

電話録音などの低音質音声のサンプルレートは、通常 8,000 Hz を使用します。忠実度の高いオーディオの場合、は 16,000 Hz ～ 48,000 Hz の値 Amazon Transcribe をサポートします。

Output

文字起こしの出力は JSON 形式です。トランスクリプトの最初の部分には、トランスクリプトそのものが段落形式で含まれ、その後に単語と句読点ごとに追加データが続きます。提供されるデータは、リクエストに含めた機能によって異なります。少なくとも、トランスクリプトにはすべての単語の開始時刻、終了時刻、および信頼スコアが含まれます。次のセクションでは、追加のオプションや機能を含まない基本的な文字起こしリクエストの出力例を示しています。

すべてのバッチトランスクリプトは Amazon S3 バケットに保存されます。トランスクリプトを独自の Amazon S3 バケットに保存するか、安全なデフォルトバケット Amazon Transcribe を使用するかを選択できます。 Amazon S3 バケットの作成と使用について詳しくは、「バケットの使用」を参照してください。

自分の所有する Amazon S3 バケットにトランスクリプトを保存する場合は、文字起こしリクエストでバケットの URI を指定します。バッチ文字起こしジョブを開始する前に、必ずこのバケットの Amazon Transcribe 書き込みアクセス許可を付与してください。独自のバケットを指定した場合、トランスクリプトは削除するまでそのバケットに残ります。

Amazon S3 バケットを指定しない場合、は安全なサービスマネージドバケット Amazon Transcribe を使用し、トランスクリプトのダウンロードに使用できる一時的な URI を提供します。一時的な URI は 15 分間有効であることに注意してください。提供された URI の使用中に AccessDenied エラーが発生した場合は、トランスクリプト用の新しい一時的な URI を取得する GetTranscriptionJob リクエストを行ってください。

デフォルトバケットを選択した場合、ジョブの有効期限 (90 日) になると、トランスクリプトは削除されます。この有効期限を過ぎてもトランスクリプトを保存したい場合は、ダウンロードする必要があります。

ストリーミングトランスクリプトは、ストリームに使用しているのと同じ方法で返されます。

ヒント

JSON 出力を単語形式のターンバイターンのトランスクリプトに変換したい場合は、この「GitHub の例 (Python3 用)」を参照してください。このスクリプトは、通話後分析文字起こしや、ダイアライゼーションが有効になっている標準のバッチ文字起こしで動作します。

出力の例

トランスクリプトでは、段落形式で完全な文字起こしが得られ、その後に単語ごとの内訳が記載され、すべての単語と句読点のデータが示されます。これには、開始時間、終了時間、信頼スコア、タイプ (pronunciation または punctuation) が含まれます。

次の例は、追加機能を含まないシンプルなバッチ文字起こしジョブのものです。文字起こしリクエストに追加機能を適用するたびに、文字起こし出力ファイルに追加のデータが追加されます。

基本的なバッチ文字起こしには主に以下の 2 つのセクションがあります。

transcripts: 1 つのテキストブロックにトランスクリプト全体が含まれます。
items: transcripts セクションの各単語と句読点に関する情報が含まれます。
audio_segments: 音声セグメントとは、オーディオ録音の中で最小限の一時停止や中断のみを含む、途切れない音声言語の特定の部分を指します。このセグメントは自然な音声の流れをキャプチャし、開始時刻と終了時刻と共に audio_segments にキャプチャされます。音声セグメント内の items 要素は、セグメント内の各項目に対応する一連の識別子です。

文字起こしリクエストに追加機能を含めるたびに、トランスクリプトに追加情報が生成されます。


{
    "jobName": "my-first-transcription-job",
    "accountId": "111122223333",
    "results": {
        "transcripts": [
            {
                "transcript": "Welcome to Amazon Transcribe."
            }
        ],
        "items": [
            {
                "id": 0,
                "start_time": "0.64",
                "end_time": "1.09",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Welcome"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 1,
                "start_time": "1.09",
                "end_time": "1.21",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "to"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 2,
                "start_time": "1.21",
                "end_time": "1.74",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Amazon"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 3,
                "start_time": "1.74",
                "end_time": "2.56",
                "alternatives": [
                    {
                        "confidence": "1.0",
                        "content": "Transcribe"
                    }
                ],
                "type": "pronunciation"
            },
            {
                "id": 4,
                "alternatives": [
                    {
                        "confidence": "0.0",
                        "content": "."
                    }
                ],
                "type": "punctuation"
            }
        ],
        "audio_segments": [
            {
                "id": 0,
                "transcript": "Welcome to Amazon Transcribe.",
                "start_time": "0.64",
                "end_time": "2.56",
                "items": [
                    0,
                    1,
                    2,
                    3,
                    4
                ]
            }
        ]
    },
    "status": "COMPLETED"
}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

仕組み

文字起こし番号