翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Nova Sonic モデルは、双方向オーディオストリーミングを通じてリアルタイムの会話型インタラクションを提供します。Amazon Nova Sonic は、発生時にリアルタイムの音声を処理して応答し、人間のような自然な会話体験を可能にします。
Amazon Nova Sonic は、音声の理解と生成の統合アーキテクチャにより、会話型 AI に変革的なアプローチを提供します。このstate-of-the-art基盤モデルは、業界をリードする価格パフォーマンスを実証し、企業が自然でコンテキストに応じた音声エクスペリエンスを構築できるようにします。
主な機能と機能
-
リアルタイムの低レイテンシーのマルチターン会話を可能にする双方向ストリーム API 機能によるState-of-the-artストリーミング音声理解。
-
人間のような自然な会話 AI エクスペリエンスは、サポートされているすべての言語でコンテキストに応じた豊かさを提供します。
-
入力音声のプロソディに基づいて配信を動的に調整するアダプティブ音声レスポンス。
-
会話コンテキストを削除することなく、ユーザーの中断を適切に処理します。
-
Retrieval Augmented Generation (RAG) を使用したエンタープライズデータによるナレッジグラウンディング。
-
複雑な AI アプリケーションを構築するための関数呼び出しとエージェントワークフローのサポート。
-
実際のデプロイシナリオにおけるバックグラウンドノイズに対する堅牢性。
-
サポートされているすべての言語にわたるさまざまな話し方を認識します。
トピック
Amazon Nova Sonic アーキテクチャ
Amazon Nova Sonic は、双方向ストリーム API を通じてイベント駆動型アーキテクチャを実装し、リアルタイムの会話体験を可能にします。API の主要なアーキテクチャコンポーネントは次のとおりです。
-
双方向イベントストリーミング: Amazon Nova Sonic は、双方向の同時イベントストリーミングを可能にする永続的な双方向接続を使用します。従来のリクエスト/レスポンスパターンとは異なり、このアプローチでは次のことを許可します。
ユーザーからモデルへの継続的なオーディオストリーミング
同時音声処理と生成
完全な発話を待たずにリアルタイムのモデルレスポンス
-
イベント駆動型通信フロー: インタラクション全体がイベントベースのプロトコルに従います。
クライアントとモデルが構造化された JSON イベントを交換する
イベントは、セッションのライフサイクル、オーディオストリーミング、テキストレスポンス、およびツールインタラクションを制御します。
各イベントには、会話フローに特定のロールがあります。
双方向ストリーム API は、次の 3 つの主要コンポーネントで構成されます。
-
セッションの初期化: クライアントは双方向ストリームを確立し、設定イベントを送信します。
-
オーディオストリーミング: ユーザーオーディオは、継続的にキャプチャ、エンコード、およびイベントとしてモデルにストリーミングされ、継続的に音声を処理します。
-
レスポンスストリーミング: オーディオが到着すると、モデルはイベントレスポンスを同時に送信します。
ユーザー音声 (ASR) のテキスト文字起こし
関数呼び出しのツール使用イベント
モデルのテキストレスポンス
音声出力のオーディオチャンク
次の図は、双方向ストリーム API の概要を示しています。
