Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Amazon Nova Sonic Speech-to-Speech モデルの使用

フォーカスモード
Amazon Nova Sonic Speech-to-Speech モデルの使用 - Amazon Nova

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Nova Sonic モデルは、双方向オーディオストリーミングを通じてリアルタイムの会話型インタラクションを提供します。Amazon Nova Sonic は、発生時にリアルタイムの音声を処理して応答し、人間のような自然な会話体験を可能にします。

Amazon Nova Sonic は、音声の理解と生成の統合アーキテクチャにより、会話型 AI に変革的なアプローチを提供します。このstate-of-the-art基盤モデルは、業界をリードする価格パフォーマンスを実証し、企業が自然でコンテキストに応じた音声エクスペリエンスを構築できるようにします。

主な機能と機能

  • リアルタイムの低レイテンシーのマルチターン会話を可能にする双方向ストリーム API 機能によるState-of-the-artストリーミング音声理解。

  • 人間のような自然な会話 AI エクスペリエンスは、サポートされているすべての言語でコンテキストに応じた豊かさを提供します。

  • 入力音声のプロソディに基づいて配信を動的に調整するアダプティブ音声レスポンス。

  • 会話コンテキストを削除することなく、ユーザーの中断を適切に処理します。

  • Retrieval Augmented Generation (RAG) を使用したエンタープライズデータによるナレッジグラウンディング。

  • 複雑な AI アプリケーションを構築するための関数呼び出しとエージェントワークフローのサポート。

  • 実際のデプロイシナリオにおけるバックグラウンドノイズに対する堅牢性。

  • サポートされているすべての言語にわたるさまざまな話し方を認識します。

Amazon Nova Sonic アーキテクチャ

Amazon Nova Sonic は、双方向ストリーム API を通じてイベント駆動型アーキテクチャを実装し、リアルタイムの会話体験を可能にします。API の主要なアーキテクチャコンポーネントは次のとおりです。

  1. 双方向イベントストリーミング: Amazon Nova Sonic は、双方向の同時イベントストリーミングを可能にする永続的な双方向接続を使用します。従来のリクエスト/レスポンスパターンとは異なり、このアプローチでは次のことを許可します。

    • ユーザーからモデルへの継続的なオーディオストリーミング

    • 同時音声処理と生成

    • 完全な発話を待たずにリアルタイムのモデルレスポンス

  2. イベント駆動型通信フロー: インタラクション全体がイベントベースのプロトコルに従います。

    • クライアントとモデルが構造化された JSON イベントを交換する

    • イベントは、セッションのライフサイクル、オーディオストリーミング、テキストレスポンス、およびツールインタラクションを制御します。

    • 各イベントには、会話フローに特定のロールがあります。

双方向ストリーム API は、次の 3 つの主要コンポーネントで構成されます。

  1. セッションの初期化: クライアントは双方向ストリームを確立し、設定イベントを送信します。

  2. オーディオストリーミング: ユーザーオーディオは、継続的にキャプチャ、エンコード、およびイベントとしてモデルにストリーミングされ、継続的に音声を処理します。

  3. レスポンスストリーミング: オーディオが到着すると、モデルはイベントレスポンスを同時に送信します。

    • ユーザー音声 (ASR) のテキスト文字起こし

    • 関数呼び出しのツール使用イベント

    • モデルのテキストレスポンス

    • 音声出力のオーディオチャンク

次の図は、双方向ストリーム API の概要を示しています。

Amazon Nova Sonic 双方向ストリーミングシステムを説明する図。

このページの内容

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.