

# 使用 Amazon Nova Sonic 语音转语音模型
<a name="speech"></a>

**注意**  
本文档适用于 Amazon Nova 版本 1。如需 Amazon Nova 2 Sonic 指南，请访问[语音到语音](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-conversational-speech.html)。

Amazon Nova Sonic 模型通过双向音频流提供实时的对话交互。Amazon Nova Sonic 在实时语音出现时对其进行处理和回复，从而实现自然的、类人的对话体验。

Amazon Nova Sonic 凭借其统一的语音理解和生成架构，为对话式人工智能提供了一种变革性的方法。这种先进的基础模型拥有行业领先的性价比，让企业能够打造自然且具有上下文感知功能的语音体验。

主要功能和特征
+ 先进的流式语音理解技术，具有双向流 API 功能，可实现实时、低延迟的多回合对话。
+ 在所有支持的语言中，提供上下文丰富、自然、类人的对话式人工智能体验。
+ 自适应语音回复，可根据输入语音的韵律动态调整传送方式。
+ 妥善处理用户打断情况，不会丢弃对话上下文。
+ 使用检索增强生成（RAG）技术，基于企业数据进行知识基础构建。
+ 支持函数调用和座席工作流程，用于构建复杂的人工智能应用程序。
+ 在实际部署场景中对背景噪声具有鲁棒性。
+ 支持多语种，提供富有表现力的声音和说话风格。提供富有表现力的声音，包括听起来充满阳刚之气和女性化的声音，支持五种语言：英语（美国、英国）、法语、意大利语、德语和西班牙语。
+ 识别所有支持语言的不同口语风格。

**Topics**
+ [Amazon Nova Sonic 架构](#speech-architecture)
+ [使用双向流式 API](speech-bidirection.md)
+ [语音转语音示例](s2s-example.md)
+ [Amazon Nova Sonic 的代码示例](speech-code-examples.md)
+ [使用双向 API 处理输入事件](input-events.md)
+ [使用双向 API 处理输出事件](output-events.md)
+ [Amazon Nova Sonic 的可用语音](available-voices.md)
+ [使用 Amazon Nova Sonic 处理错误](speech-errors.md)
+ [Amazon Nova Sonic 的“工具使用”、RAG 和座席流程](speech-tools.md)

## Amazon Nova Sonic 架构
<a name="speech-architecture"></a>

Amazon Nova Sonic 通过双向流 API 实现事件驱动型架构，从而提供实时对话体验。以下是 API 的关键架构组件：

1. **双向事件流**：Amazon Nova Sonic 使用持续的双向连接，支持双向同步事件流。与传统的请求-回复模式不同，此方法允许以下操作：
   + 从用户到模型的持续音频流
   + 并行语音处理和生成
   + 实时模型回复，无需等待完整话语

1. **事件驱动型通信流程**：整个交互遵循基于事件的协议，在该协议下：
   + 客户端会与模型交换结构化的 JSON 事件
   + 事件会控制会话生命周期、音频流、文本回复和工具交互
   + 每个事件在对话流程中都有特定的作用

双向流 API 由以下三个主要组件构成：

1. **会话初始化**：客户端建立双向流并发送配置事件。

1. **音频流**：用户音频被持续捕获、编码并作为事件流式传输到模型，而模型会持续处理语音。

1. **回复流**：音频到达时，模型会同时发送事件回复：
   + 用户语音的文本转录（ASR）
   + 用于函数调用的“工具使用”事件
   + 模型的文本回复
   + 用于语音输出的音频片段

下图提供了双向流 API 的简要概述。

![\[该图解释了 Amazon Nova Sonic 双向流式系统。\]](http://docs.aws.amazon.com/zh_cn/nova/latest/userguide/images/nova-sonic-sequential.png)
