Amazon Nova Sonic Speech-to-Speech モデルの使用

このドキュメントは Amazon Nova バージョン 1 を対象としています。Amazon Nova 2 Sonic ガイドについては、「Speech-to-Speech」を参照してください。

Amazon Nova Sonic モデルは、双方向オーディオストリーミングを通じてリアルタイムの会話型インタラクションを提供します。Amazon Nova Sonic は、発話された音声をリアルタイムで処理して応答するため、人間のような自然な会話エクスペリエンスが可能になります。

Amazon Nova Sonic の音声理解と生成の統合アーキテクチャにより、会話型 AI に変革的なアプローチがもたらされます。この最先端の基盤モデルは、業界をリードするコストパフォーマンスを誇り、企業が自然でコンテキストに応じた音声エクスペリエンスを構築できるようにします。

主な機能と特徴

リアルタイムかつ低レイテンシーの複数ターン会話を可能にする双方向ストリーム API 機能による最先端のストリーミング音声理解。
サポートされているすべての言語で、コンテキストに応じた豊かさを備えた人間のような自然な会話 AI エクスペリエンスを提供。
入力音声のプロソディに基づいて配信を動的に調整するアダプティブ音声レスポンス。
会話のコンテキストを失うことなく、ユーザーの割り込みにスムーズに対応。
検索拡張生成 (RAG) を使用した企業データのナレッジグラウンディング。
複雑な AI アプリケーションを構築するための関数呼び出しとエージェントワークフローのサポート。
実際のデプロイシナリオにおけるバックグラウンドノイズに対する堅牢性。
表現力のある音声と話し方による多言語サポート。表現力のある音声は、男性的なサウンドと女性的なサウンドの両方を含み、英語 (米国、英国)、フランス語、イタリア語、ドイツ語、スペイン語の 5 つの言語で提供されます。
サポートされているすべての言語でさまざまな話し方を認識。

Amazon Nova Sonic アーキテクチャ

Amazon Nova Sonic は、双方向ストリーム API を介してイベント駆動型アーキテクチャを実装し、リアルタイムの会話エクスペリエンスを可能にします。API の主要なアーキテクチャコンポーネントは次のとおりです。

双方向イベントストリーミング: Amazon Nova Sonic は、双方向の同時イベントストリーミングを可能にする永続的な双方向接続を使用します。従来のリクエスト/レスポンスパターンとは異なり、このアプローチでは以下が許可されます。
- ユーザーからモデルへの継続的なオーディオストリーミング
- 同時音声処理と生成
- 完全な発話を待つことなくリアルタイムにモデルが応答
イベント駆動型通信フロー: インタラクション全体が、以下のようなイベントベースのプロトコルに従います。
- クライアントとモデルが構造化された JSON イベントを交換する
- イベントは、セッションのライフサイクル、オーディオストリーミング、テキストレスポンス、およびツールインタラクションを制御する
- 各イベントは、会話フローで特定のロールを持つ

双方向ストリーム API は、次の 3 つの主要コンポーネントで構成されます。

セッションの初期化: クライアントは双方向ストリームを確立し、設定イベントを送信します。
オーディオストリーミング: ユーザーオーディオは継続的にキャプチャ、エンコードされ、イベントとしてモデルにストリーミングされ、音声が継続的に処理されます。
レスポンスストリーミング: オーディオが届くと、モデルは以下のイベントレスポンスを同時に送信します。
- ユーザー音声のテキスト文字起こし (ASR)
- 関数呼び出しのツール使用イベント
- モデルのテキストレスポンス
- 音声出力のオーディオチャンク

次の図は、双方向ストリーム API の概要を示しています。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ストーリーボード動画

双方向ストリーミング API の使用