

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon Nova Sonic 語音轉語音模型
<a name="speech"></a>

**注意**  
本文件適用於 Amazon Nova 第 1 版。如需 Amazon Nova 2 Sonic 指南，請造訪[Speech-to-Speech](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-conversational-speech.html)。

Amazon Nova Sonic 模型透過雙向音訊串流提供即時的對話互動。Amazon Nova Sonic 會在即時語音發生時進行處理和回應，實現自然、類似人類的對話體驗。

Amazon Nova Sonic 透過其統一的語音理解和生成架構，提供顛覆性的對話式 AI 方法。這一先進的基礎模型擁有業界領先的性價比，可讓企業建置保持自然且具情境感知的語音體驗。

主要功能和特徵
+ 具有雙向串流 API 功能的先進串流語音理解可實現即時、低延遲的多回合對話。
+ 提供跨所有支援語言、具備豐富上下文的自然、類似人類的對話式 AI 體驗。
+ 自適應語音回應可根據輸入語音的韻律動態調整輸出。
+ 優雅地處理使用者中斷，而不會丟失對話上下文。
+ 使用檢索增強生成 (RAG) 以企業資料進行知識接地。
+ 用於建置複雜 AI 應用程式的函數呼叫與代理式工作流程支援。
+ 在真實世界部署場景中具有強大的抗背景雜訊能力。
+ 多語言支援包含富有表現力的語音和講話風格。提供富有表現力的語音，包括男性化聲音和女性化聲音，涵蓋以下五種語言：英文 (美國、英國)、法文、義大利文、德文和西班牙文。
+ 識別所有支援語言的不同講話風格。

**Topics**
+ [Amazon Nova Sonic 架構](#speech-architecture)
+ [使用雙向串流 API](speech-bidirection.md)
+ [語音轉語音範例](s2s-example.md)
+ [Amazon Nova Sonic 的程式碼範例](speech-code-examples.md)
+ [使用雙向 API 處理輸入事件](input-events.md)
+ [使用雙向 API 處理輸出事件](output-events.md)
+ [Amazon Nova Sonic 的可用語音](available-voices.md)
+ [處理 Amazon Nova Sonic 的錯誤](speech-errors.md)
+ [搭配 Amazon Nova Sonic 的工具使用、RAG 和代理式流程](speech-tools.md)

## Amazon Nova Sonic 架構
<a name="speech-architecture"></a>

Amazon Nova Sonic 透過雙向串流 API 實作事件驅動型架構，實現即時對話體驗。以下是 API 的關鍵架構元件：

1. **雙向事件串流**：Amazon Nova Sonic 使用持久性雙向連線，允許雙向同時串流事件。與傳統的請求-回應模式不同，此方法允許下列項目：
   + 從使用者到模型的持續音訊串流
   + 並行語音處理和生成
   + 即時模型回應，無需等待完整的話語

1. **事件驅動的通訊流程**：整個互動遵循事件型通訊協定，其中
   + 用戶端和模型交換結構化 JSON 事件
   + 事件控制工作階段生命週期、音訊串流、文字回應和工具互動
   + 每個事件在對話流程中都有特定角色

雙向串流 API 包含以下三個主要元件：

1. **工作階段初始化**：用戶端會建立雙向串流並傳送組態事件。

1. **音訊串流**：使用者音訊被持續擷取、編碼並以事件的形式串流至模型，而模型會持續處理語音。

1. **回應串流**：當音訊送達時，模型會同時傳送事件回應：
   + 使用者語音的文字轉錄 (ASR)
   + 函數呼叫的工具使用事件
   + 模型的文字回應
   + 口語輸出的音訊區塊

下圖提供雙向串流 API 的高階概觀。

![\[說明 Amazon Nova Sonic 雙向串流系統的圖表。\]](http://docs.aws.amazon.com/zh_tw/nova/latest/userguide/images/nova-sonic-sequential.png)
