音声ストリーミングの文字起こし - Amazon Transcribe

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

音声ストリーミングの文字起こし

Amazon Transcribe ストリーミングを使用すると、メディアコンテンツのリアルタイム文字起こしを作成できます。メディアファイルのアップロードを伴うバッチ文字起こしとは異なり、ストリーミングメディアはリアルタイムで Amazon Transcribe に配信されます。 Amazon Transcribe その後、 はトランスクリプトもリアルタイムで返します。

ストリーミングには、事前に録画されたメディア (映画、音楽、ポッドキャスト) とリアルタイムメディア (ライブニュース放送) が含まれます。の一般的なストリーミングユースケース Amazon Transcribe には、スポーツイベントのライブクローズドキャプションやコールセンターの音声のリアルタイムモニタリングなどがあります。

ストリーミングコンテンツは、 Amazon Transcribe が瞬時に文字起こしした一連の連続したデータパケット、つまり「チャンク」として配信されます。バッチを介したストリーミングを使用する利点には、アプリケーションのリアルタイム speech-to-text機能や文字起こし時間の短縮などがあります。ただし、この速度の向上により、場合によっては精度に制限が生じることがあります。

Amazon Transcribe では、ストリーミングに次のオプションが用意されています。

ストリーミングオーディオを に書き起こすには AWS Management Console、コンピュータマイクに話しかけます。

ヒント

SDK コード例については、 のサンプルAWS リポジトリを参照してください GitHub。

ストリーミング文字起こしでサポートされている音声形式は以下のとおりです。

  • FLAC

  • OPUSOgg コンテナ内のエンコードされたオーディオ

  • PCM (署名付き 16 ビットのリトルエンディアンオーディオ形式のみ。 は含まれませんWAV)

ロスレス形式 (FLAC または PCM) が推奨されます。

注記

ストリーミング文字起こしは、すべての言語でサポートされているわけではありません。詳細については、サポートされている言語の表の「データ入力」列を参照してください。

ストリーミング文字起こしの Amazon Transcribe リージョンの可用性を表示するには、Amazon Transcribe 「エンドポイントとクォータ」を参照してください。

ベストプラクティス

ストリーミング文字起こしの効率を高めるには、以下のことを推奨します。

  • 可能であれば、PCMエンコードされたオーディオを使用します。

  • ストリーミングは、できる限りリアルタイムに近いことを確認します。

  • レイテンシーは、音声チャンクのサイズによって異なります。オーディオタイプ ( などPCM) でチャンクサイズを指定できる場合は、各チャンクを 50 ミリ秒~200 ミリ秒に設定します。音声チャンクサイズは次の式で計算できます。

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • チャンクのサイズを統一します。

  • 音声チャネル数は正しく指定してください。

  • シングルチャネルPCMオーディオでは、各サンプルは 2 バイトで構成されているため、各チャンクは偶数のバイトで構成されている必要があります。

  • デュアルチャネルPCMオーディオでは、各サンプルは 4 バイトで構成されているため、各チャンクは 4 バイトの倍数である必要があります。

  • 音声ストリームに音声が含まれていない場合は、同じ量の無音部分をエンコードして送信します。例えば、 のサイレンスPCMはゼロバイトのストリームです。

  • 音声には必ず正しいサンプリングレートを指定します。可能であれば、16,000 Hz のサンプリングレートで録音します。これにより、ネットワーク経由で送信される品質とデータ量の最適な妥協点が得られます。ほとんどのハイエンドマイクは 44,100 Hz または 48,000 Hz で録音されます。