Cross-modal masukan - Amazon Nova

Cara kerjanya Struktur peristiwa

Amazon Nova 2 Sonic sekarang mendukung input lintas modal, memungkinkan Anda mengirim pesan teks selain input suara selama sesi percakapan. Sementara ucapan tetap menjadi mode interaksi utama, input teks memberikan fleksibilitas untuk skenario di mana mengetik lebih nyaman atau sesuai.

Diperlukan streaming berkelanjutan: Cross-modal input memerlukan sesi streaming aktif agar berfungsi dengan baik. Sesi harus mempertahankan streaming berkelanjutan seperti sesi suara biasa, jika tidak, batas waktu sesi standar akan diterapkan dan koneksi akan dihentikan.

Tingkat sensitivitas dalam input teks lintas-modal berguna untuk skenario seperti:

Client-side integrasi aplikasi (web dan seluler): Memungkinkan pengguna untuk berinteraksi dengan aplikasi menggunakan teks dan suara, mendukung pengalaman multimodal yang mulus.
Kasus penggunaan “Model-start-first": Pesan teks dapat dikirim segera setelah sesi mulai meminta model untuk mulai berbicara.
Memandu model selama pemanggilan alat async: Ketika acara ToolUse dipicu dan sistem mulai memproses panggilan alat, klien dapat mengirim pesan teks ke Sonic untuk memberikan respons alami sambil menunggu — seperti, “Tunggu sebentar sementara saya memproses informasi Anda. Sementara itu, apakah ada hal lain yang bisa saya bantu?”
Integrasi DTMF telepon: Pelanggan menggunakan keypad telepon untuk memasukkan informasi sensitif (seperti nomor kartu kredit). Catatan: Amazon Nova Sonic tidak memproses nada DTMF secara asli. Untuk mendukung input DTMF, sistem Anda harus mendeteksi nada, mengubahnya menjadi teks (seperti “1234"), dan mengirim ke Nova 2 Sonic.

Cross-modal input menggunakan urutan tiga peristiwa yang mirip dengan input audio:

Acara Mulai Konten: Sinyal awal input teks
Acara Input Teks: Berisi pesan teks yang sebenarnya
Acara Akhir Konten: Sinyal penyelesaian input teks

Ketiga peristiwa harus menggunakan PromptName dan contentName yang sama untuk mempertahankan urutan. UUID baru harus dibuat untuk ContentName setiap kali Anda mengirim input teks untuk memastikan pelacakan percakapan multi-putaran yang tepat.

Memulai urutan input teks dengan detail konfigurasi:


{
  "event": {
    "contentStart": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>",
      "role": "USER",
      "type": "TEXT",
      "interactive": true,
      "textInputConfiguration": {
        "mediaType": "text/plain"
      }
    }
  }
}

Parameter kunci:

promptName:Nama prompt percakapan Anda (konsisten di seluruh sesi)
contentName: Pengidentifikasi unik untuk input teks ini (menghasilkan UUID baru untuk setiap pesan)
role: Setel "USER" untuk menunjukkan masukan pengguna
type: Setel ke "TEXT" untuk masukan teks
interactive: Setel true untuk mengaktifkan mode interaktif
mediaType: Setel ke "text/plain" untuk konten teks biasa

Berisi konten pesan teks yang sebenarnya:


{
  "event": {
    "textInput": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>",
      "content": "<your_text_message>"
    }
  }
}

Parameter kunci:

promptName: Harus cocok dengan nilai dari Acara Mulai Konten
contentName: Harus cocok dengan nilai dari Acara Mulai Konten
role: String pesan teks Anda

Sinyal penyelesaian input teks:


{
  "event": {
    "contentEnd": {
      "promptName": "<prompt_name>",
      "contentName": "<new_content_name>"
    }
  }
}

Parameter kunci:

promptName: Harus cocok dengan nilai dari peristiwa sebelumnya
contentName: Harus cocok dengan nilai dari peristiwa sebelumnya

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Turn-taking kemampuan kontrol

Dukungan bahasa dan kemampuan multibahasa