View a markdown version of this page

跨模式輸入 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

跨模式輸入

Amazon Nova 2 Sonic 現在支援跨模式輸入,除了語音輸入之外,您還可以在對話工作階段期間傳送文字訊息。雖然語音仍是互動的主要模式,但文字輸入可為輸入更方便或更適當的案例提供彈性。

需要持續串流:跨模式輸入需要作用中的串流工作階段才能正常運作。工作階段必須像一般語音工作階段一樣維持持續串流,否則將套用標準工作階段逾時,並將終止連線。

跨模式文字輸入中的敏感度層級適用於下列情況:

  • 用戶端應用程式整合 (Web 和行動裝置):允許使用者使用文字和語音與應用程式互動,以支援無縫的多模式體驗。

  • 「Model-start-first」使用案例:可在工作階段開始提示模型開始說話後立即傳送文字訊息。

  • 在非同步工具呼叫期間引導模型:當toolUse事件觸發且系統開始處理工具呼叫時,用戶端可以將文字訊息傳送至 Sonic,以在等待時提供自然回應,例如「在我處理您的資訊時保留一秒鐘。同時,還有什麼我可以協助的嗎?」

  • 電話 DTMF 整合:客戶使用電話鍵盤輸入敏感資訊 (例如信用卡號碼)。注意:Amazon Nova Sonic 不會原生處理 DTMF 音調。若要支援 DTMF 輸入,您的系統必須偵測音調、將其轉換為文字 (例如 "1234"),然後傳送至 Nova 2 Sonic。

運作方式

跨模式輸入使用類似音訊輸入的三個事件序列:

  1. 內容開始事件:表示文字輸入的開頭

  2. 文字輸入事件:包含實際的文字訊息

  3. 內容結束事件:表示文字輸入完成

這三個事件都必須使用相同的 promptName 和 contentName 來維護序列。每次傳送文字輸入時,都應為 contentName 產生新的 UUID,以確保適當的多迴轉對話追蹤。

事件結構

使用組態詳細資訊啟動文字輸入序列:

{ "event": { "contentStart": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "role": "USER", "type": "TEXT", "interactive": true, "textInputConfiguration": { "mediaType": "text/plain" } } } }

重要參數:

  • promptName:對話提示的名稱 (跨工作階段一致)

  • contentName:此文字輸入的唯一識別符 (為每個訊息產生新的 UUID)

  • role:設定為 "USER"以指示使用者輸入

  • type"TEXT"將文字輸入設定為

  • interactive:設定為 true以啟用互動式模式

  • mediaType"text/plain"純文字內容設定為

包含實際的文字訊息內容:

{ "event": { "textInput": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "content": "<your_text_message>" } } }

重要參數:

  • promptName:必須符合內容開始事件中的值

  • contentName:必須符合內容開始事件中的值

  • role:您的文字訊息字串

表示文字輸入的完成:

{ "event": { "contentEnd": { "promptName": "<prompt_name>", "contentName": "<new_content_name>" } } }

重要參數:

  • promptName:必須符合先前事件的值

  • contentName:必須符合先前事件的值