集成

Amazon Nova 2 Sonic 可与多种框架和平台集成，用于构建对话式人工智能应用程序。这些集成为常见使用案例提供了预先构建的组件和简化的 API。

Strands Agents

Strands Agents 是一个简单但功能强大的 SDK，采用模型驱动的方法来构建和运行人工智能代理。从简易对话助手到复杂自主工作流，从本地开发到生产部署，Strands Agents 均可随您的需求灵活扩展。

有关 Strands 框架的完整文档，请访问 Srands 官方文档。

Strands BidiAgent 通过持久化流式连接，实现实时音频与文本交互。与传统的请求-响应模式不同，此代理可保持长时间运行的对话，支持中断、并行处理和连续音频响应。

先决条件：

已安装 Python 3.8 或更高版本。
配置有对 Amazon Bedrock 的访问权限的 AWS 凭证
基本了解 Python async/await 语法

代码示例：

安装：

安装所需的软件包：


pip install strands-agents strands-agents-tools

运行本示例：


import asyncio
from strands.experimental.bidi.agent import BidiAgent
from strands.experimental.bidi.io.audio import BidiAudioIO
from strands.experimental.bidi.io.text import BidiTextIO
from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel
from strands_tools import calculator

async def main():
    """Test the BidirectionalAgent API."""
    # Audio and Text input/output utility
    audio_io = BidiAudioIO(audio_config={})
    text_io = BidiTextIO()
    
    # Nova Sonic model
    model = BidiNovaSonicModel(region="us-east-1")
    
    async with BidiAgent(model=model, tools=[calculator]) as agent:
        print("New BidiAgent Experience")
        print("Try asking: 'What is 25 times 8?' or 'Calculate the square root of 144'")
        
        await agent.run(
            inputs=[audio_io.input()],
            outputs=[audio_io.output(), text_io.output()]
        )

if __name__ == "__main__":
    try:
        asyncio.run(main())
    except KeyboardInterrupt:
        print("\nConversation ended by user")
    except Exception as e:
        print(f"Error: {e}")
        import traceback
        traceback.print_exc()


from strands.experimental.bidi.agent import BidiAgent 
from strands.experimental.bidi.io.audio import BidiAudioIO 
from strands.experimental.bidi.io.text import BidiTextIO 
from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel 
from strands_tools import calculator

BidiAgent：编排双向对话的主代理类
BidiAudioIO：处理语音交互的音频输入和输出
BidiTextIO：为转录和响应提供文本输出
BidiNovaSonicModel：Nova 2 Sonic 模型包装器
Calculator：用于数学运算的预构建工具


audio_io = BidiAudioIO(audio_config={}) 
text_io = BidiTextIO()

BidiAudioIO 管理麦克风输入和扬声器输出，而 BidiTextIO 则在控制台中显示文本转录和响应。


model = BidiNovaSonicModel(region="us-east-1")

创建 Nova Sonic 模型实例。region 参数指定部署模型所在的 AWS 区域。


async with BidiAgent(model=model, tools=[calculator]) as agent: 
    await agent.run( 
        inputs=[audio_io.input()],  
        outputs=[audio_io.output(), text_io.output()] 
    )

创建代理时需配置以下项：

Model：要使用的 Nova 2 Sonic 模型
Tools：代理可调用的工具列表（如计算器）
Inputs：麦克风音频输
Outputs：音频输出到扬声器，文本输出到控制台

框架集成

Amazon Nova 2 Sonic 可与各种框架和平台集成，用于构建高阶语音应用程序。以下示例展示了与主流框架的集成方案。

Amazon Bedrock AgentCore 为部署具有企业级安全性和可扩展性的 Nova 2 Sonic 应用程序，提供了托管运行时环境。AgentCore 负责底层基础设施、身份验证及 WebSocket 连接管理，简化了实时语音人工智能应用程序的部署流程。

主要特征：

双向流式传输：原生支持 Nova Sonic 全双工流接口，支持实时事件处理与低时延通信。
WebSocket 基础设施：可直接用于生产环境的 WebSocket 服务器，具备自动扩缩容、连接管理与故障恢复能力。
容器部署：支持通过水平扩缩容与独立版本控制，将 Nova Sonic 应用程序以容器形式部署到托管基础设施。
企业级安全：通过 IAM 与 SigV4 实现精细化身份验证，支持 VPC 隔离及完备的审计日志记录。

该架构展示了客户端应用程序如何通过 SigV4 身份验证，经由 WebSocket 连接到 AgentCore 运行时。容器化环境包含 WebSocket 服务器、应用逻辑与 Nova Sonic 客户端，所有组件均通过双向流式 API 与 Nova Sonic 进行通信。

优点：

简化运维：专注于应用逻辑，由 AgentCore 负责基础设施、扩缩容与可靠性保障。
企业级安全：内置身份验证、授权与合规特性，适配生产环境部署。
成本效益：按需付费，支持自动扩缩容与资源优化。
开发人员工作效率：通过托管式 WebSocket 基础设施和容器部署缩短投产时间。

使用案例

具有安全身份验证功能的客户服务语音助手
需要 IAM 集成的企业语音应用程序
具有隔离部署功能的多租户语音平台
需要合规性和审计跟踪记录的支持语音的应用程序

有关使用 AgentCore 部署 Nova Sonic 的详细文档，请访问 Amazon Bedrock AgentCore 文档。

LiveKit 是一款开源平台，用于构建实时音频和视频应用程序。与 Amazon Nova 2 Sonic 的集成使开发人员无需管理复杂的音频管道或信令协议，即可构建对话式语音接口。

有关详细的实现示例与代码示例，请访问 LiveKit AWS 集成文档。

工作原理：

客户端层：网络、移动或桌面应用程序使用 LiveKit 的客户端 SDK 进行连接，这些软件开发工具包处理音频采集、WebRTC 流式传输和播放。
LiveKit 服务器：充当实时通信中心，管理 WebRTC 连接，路由音频流，并通过低延迟优化处理会话状态。
LiveKit Agent：基于 Python 的代理，从服务端接收音频，经 Nova Sonic 插件处理后，以流式方式返回响应。包括语音活动检测与轮次管理等内置功能。
Amazon Nova 2 Sonic：通过双向流式 API 处理音频流，执行语音识别、自然语言理解以及使用合成语音生成对话回复。

Pipecat 是一个用于构建语音和多模态对话式人工智能应用程序的框架。该框架提供了基于管道的模块化架构，可编排多个组件，使用 Amazon Nova Sonic 和其他 AWS 服务创建智能语音应用程序。

有关详细的实现示例与代码示例，请访问 PipeCat AWS 集成文档。

主要特征：