View a markdown version of this page

Cross-modal masukan - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cross-modal masukan

Amazon Nova 2 Sonic sekarang mendukung input lintas modal, memungkinkan Anda mengirim pesan teks selain input suara selama sesi percakapan. Sementara ucapan tetap menjadi mode interaksi utama, input teks memberikan fleksibilitas untuk skenario di mana mengetik lebih nyaman atau sesuai.

Diperlukan streaming berkelanjutan: Cross-modal input memerlukan sesi streaming aktif agar berfungsi dengan baik. Sesi harus mempertahankan streaming berkelanjutan seperti sesi suara biasa, jika tidak, batas waktu sesi standar akan diterapkan dan koneksi akan dihentikan.

Tingkat sensitivitas dalam input teks lintas-modal berguna untuk skenario seperti:

  • Client-side integrasi aplikasi (web dan seluler): Memungkinkan pengguna untuk berinteraksi dengan aplikasi menggunakan teks dan suara, mendukung pengalaman multimodal yang mulus.

  • Kasus penggunaan “Model-start-first": Pesan teks dapat dikirim segera setelah sesi mulai meminta model untuk mulai berbicara.

  • Memandu model selama pemanggilan alat async: Ketika acara ToolUse dipicu dan sistem mulai memproses panggilan alat, klien dapat mengirim pesan teks ke Sonic untuk memberikan respons alami sambil menunggu — seperti, “Tunggu sebentar sementara saya memproses informasi Anda. Sementara itu, apakah ada hal lain yang bisa saya bantu?”

  • Integrasi DTMF telepon: Pelanggan menggunakan keypad telepon untuk memasukkan informasi sensitif (seperti nomor kartu kredit). Catatan: Amazon Nova Sonic tidak memproses nada DTMF secara asli. Untuk mendukung input DTMF, sistem Anda harus mendeteksi nada, mengubahnya menjadi teks (seperti “1234"), dan mengirim ke Nova 2 Sonic.

Cara kerjanya

Cross-modal input menggunakan urutan tiga peristiwa yang mirip dengan input audio:

  1. Acara Mulai Konten: Sinyal awal input teks

  2. Acara Input Teks: Berisi pesan teks yang sebenarnya

  3. Acara Akhir Konten: Sinyal penyelesaian input teks

Ketiga peristiwa harus menggunakan PromptName dan contentName yang sama untuk mempertahankan urutan. UUID baru harus dibuat untuk ContentName setiap kali Anda mengirim input teks untuk memastikan pelacakan percakapan multi-putaran yang tepat.

Struktur peristiwa

Memulai urutan input teks dengan detail konfigurasi:

{ "event": { "contentStart": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "role": "USER", "type": "TEXT", "interactive": true, "textInputConfiguration": { "mediaType": "text/plain" } } } }

Parameter kunci:

  • promptName:Nama prompt percakapan Anda (konsisten di seluruh sesi)

  • contentName: Pengidentifikasi unik untuk input teks ini (menghasilkan UUID baru untuk setiap pesan)

  • role: Setel "USER" untuk menunjukkan masukan pengguna

  • type: Setel ke "TEXT" untuk masukan teks

  • interactive: Setel true untuk mengaktifkan mode interaktif

  • mediaType: Setel ke "text/plain" untuk konten teks biasa

Berisi konten pesan teks yang sebenarnya:

{ "event": { "textInput": { "promptName": "<prompt_name>", "contentName": "<new_content_name>", "content": "<your_text_message>" } } }

Parameter kunci:

  • promptName: Harus cocok dengan nilai dari Acara Mulai Konten

  • contentName: Harus cocok dengan nilai dari Acara Mulai Konten

  • role: String pesan teks Anda

Sinyal penyelesaian input teks:

{ "event": { "contentEnd": { "promptName": "<prompt_name>", "contentName": "<new_content_name>" } } }

Parameter kunci:

  • promptName: Harus cocok dengan nilai dari peristiwa sebelumnya

  • contentName: Harus cocok dengan nilai dari peristiwa sebelumnya