本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
跨模式輸入
Amazon Nova 2 Sonic 現在支援跨模式輸入,除了語音輸入之外,您還可以在對話工作階段期間傳送文字訊息。雖然語音仍是互動的主要模式,但文字輸入可為輸入更方便或更適當的案例提供彈性。
需要持續串流:跨模式輸入需要作用中的串流工作階段才能正常運作。工作階段必須像一般語音工作階段一樣維持持續串流,否則將套用標準工作階段逾時,並將終止連線。
跨模式文字輸入中的敏感度層級適用於下列情況:
-
用戶端應用程式整合 (Web 和行動裝置):允許使用者使用文字和語音與應用程式互動,以支援無縫的多模式體驗。
-
「Model-start-first」使用案例:可在工作階段開始提示模型開始說話後立即傳送文字訊息。
-
在非同步工具呼叫期間引導模型:當toolUse事件觸發且系統開始處理工具呼叫時,用戶端可以將文字訊息傳送至 Sonic,以在等待時提供自然回應,例如「在我處理您的資訊時保留一秒鐘。同時,還有什麼我可以協助的嗎?」
-
電話 DTMF 整合:客戶使用電話鍵盤輸入敏感資訊 (例如信用卡號碼)。注意:Amazon Nova Sonic 不會原生處理 DTMF 音調。若要支援 DTMF 輸入,您的系統必須偵測音調、將其轉換為文字 (例如 "1234"),然後傳送至 Nova 2 Sonic。
運作方式
跨模式輸入使用類似音訊輸入的三個事件序列:
-
內容開始事件:表示文字輸入的開頭
-
文字輸入事件:包含實際的文字訊息
-
內容結束事件:表示文字輸入完成
這三個事件都必須使用相同的 promptName 和 contentName 來維護序列。每次傳送文字輸入時,都應為 contentName 產生新的 UUID,以確保適當的多迴轉對話追蹤。
事件結構
使用組態詳細資訊啟動文字輸入序列:
{ "event": { "contentStart": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "role": "USER", "type": "TEXT", "interactive": true, "textInputConfiguration": { "mediaType": "text/plain" } } } }
重要參數:
-
promptName:對話提示的名稱 (跨工作階段一致) -
contentName:此文字輸入的唯一識別符 (為每個訊息產生新的 UUID) -
role:設定為"USER"以指示使用者輸入 -
type:"TEXT"將文字輸入設定為 -
interactive:設定為true以啟用互動式模式 -
mediaType:"text/plain"純文字內容設定為
包含實際的文字訊息內容:
{ "event": { "textInput": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "content": "<your_text_message>" } } }
重要參數:
-
promptName:必須符合內容開始事件中的值 -
contentName:必須符合內容開始事件中的值 -
role:您的文字訊息字串
表示文字輸入的完成:
{ "event": { "contentEnd": { "promptName": "<prompt_name>", "contentName": "<new_content_name>" } } }
重要參數:
-
promptName:必須符合先前事件的值 -
contentName:必須符合先前事件的值