Amazon Chime SDK ライブ文字起こしを使用すると、ユーザー属性付きの会議の文字起こしがリアルタイムで生成されます。Amazon Chime SDK ライブ文字起こしは、Amazon Transcribe サービスおよび Amazon Transcribe Medical サービスと統合され、Amazon Chime SDK ミーティングの文字起こしを会議の進行中に生成します。
Amazon Chime SDK ライブ文字起こしは、各ユーザーの音声を個別に処理することで、マルチスピーカーシナリオでの精度を向上させます。Amazon Chime SDK は、アクティブトーカーアルゴリズムを使用して上位 2 人のアクティブトーカーを選択し、それらのユーザーの音声を個別のチャネルに分離したうえで 1 つのストリームとして Amazon Transcribe に送信します。会議の参加者は、Amazon Chime SDK データメッセージを介してユーザー属性付きの文字起こしを受け取ります。文字起こしは、字幕の表示、会議の文字起こしの作成、文字起こしを使用したコンテンツ分析など、さまざまな方法で使用できます。
ライブ文字起こしでは、会議の文字起こしを行っている間、Amazon Transcribe への 1 つのストリームを使用します。Amazon Transcribe および Amazon Transcribe Medical の標準コストが適用されます。詳細については、「Amazon Transcribe の料金
重要
デフォルトでは、Amazon Transcribe は、AWS サービス条件
トピック
システムアーキテクチャ
Amazon Chime SDK は、Amazon Transcribe アカウントまたは Amazon Transcribe Medical アカウントとのサービス側の統合により、音声を AWS ネットワーク外に出すことなく、会議の文字起こしをリアルタイムで作成します。精度を向上させるため、ユーザーの音声は個別に処理されてから、会議の音声に融合されます。Amazon Chime SDK は、アクティブトーカーアルゴリズムを使用して上位 2 人のアクティブトーカーを選択し、それらのユーザーの音声を個別のチャネルに分離したうえで 1 つのストリームとして Amazon Transcribe または Amazon Transcribe Medical に送信します。レイテンシーを低減するため、ユーザー属性付きの文字起こしは、データメッセージを介してすべての会議参加者に直接送信されます。メディアパイプラインを使用して会議の音声をキャプチャする場合、会議の文字起こし情報もキャプチャされます。
請求と使用状況
ライブ文字起こしでは、会議の文字起こしを行っている間、Amazon Transcribe または Amazon Transcribe Medical への 1 つのストリームを使用します。Amazon Transcribe および Amazon Transcribe Medical の標準コストが適用されます。詳細については、「Amazon Transcribe の料金
Amazon Chime SDK ライブ文字起こしパラメータ
Amazon Transcribe および Amazon Transcribe Medical の API には、ストリーミング文字起こしを開始する際に、StartStreamTranscription や StartMedicalStreamTranscription などのさまざまなパラメータが用意されています。Amazon Chime SDK でパラメータの値が事前に決定されていない限り、これらのパラメータを StartMeetingTranscription
API で使用できます。例えば、MediaEncoding
パラメータと MediaSampleRateHertz
パラメータは、Amazon Chime SDK によって自動的に設定されるため使用できません。
Amazon Transcribe と Amazon Transcribe Medical はパラメータを検証します。これにより、新しいパラメータ値が利用可能になりしだい、すぐにそれらを使用できるようになります。例えば、Amazon Transcribe Medical が新しい言語のサポートを開始した場合、必要なのは、LanguageCode
パラメータに新しい言語値を指定することだけです。