

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menggunakan model Amazon Nova Sonic Speech-to-Speech
<a name="speech"></a>

**catatan**  
Dokumentasi ini untuk Amazon Nova Versi 1. Untuk panduan Amazon Nova 2 Sonic, kunjungi [Speech-to-Speech](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-conversational-speech.html).

Model Amazon Nova Sonic menyediakan interaksi percakapan real-time melalui streaming audio dua arah. Amazon Nova Sonic memproses dan merespons pidato real-time saat terjadi, memungkinkan pengalaman percakapan alami seperti manusia.

Amazon Nova Sonic memberikan pendekatan transformatif untuk AI percakapan dengan pemahaman pidato terpadu dan arsitektur generasi. Model state-of-the-art dasar ini menawarkan kinerja harga terdepan di industri, memungkinkan perusahaan untuk membangun pengalaman suara yang tetap alami dan sadar kontekstual. 

Kemampuan dan fitur utama
+ State-of-the-art pemahaman pidato streaming dengan kemampuan API aliran dua arah yang memungkinkan percakapan multi-putaran real-time dan latensi rendah.
+ Pengalaman AI percakapan alami seperti manusia disediakan dengan kekayaan kontekstual di semua bahasa yang didukung.
+ Respon ucapan adaptif yang secara dinamis menyesuaikan pengiriman berdasarkan prosodi pidato input.
+ Penanganan interupsi pengguna yang anggun tanpa menjatuhkan konteks percakapan.
+ Pembumian pengetahuan dengan data perusahaan menggunakan Retrieval Augmented Generation (RAG).
+ Panggilan fungsi dan dukungan alur kerja agen untuk membangun aplikasi AI yang kompleks.
+ Kekokohan terhadap kebisingan latar belakang untuk skenario penerapan dunia nyata.
+ Dukungan multibahasa dengan suara ekspresif dan gaya berbicara. Suara ekspresif ditawarkan, termasuk suara maskulin dan feminin, dalam lima bahasa: Inggris (AS, Inggris), Prancis, Italia, Jerman, dan Spanyol.
+ Pengakuan gaya berbicara yang bervariasi di semua bahasa yang didukung.

**Topics**
+ [Arsitektur Amazon Nova Sonic](#speech-architecture)
+ [Menggunakan API Streaming Dua Arah](speech-bidirection.md)
+ [Speech-to-speech Contoh](s2s-example.md)
+ [Contoh kode untuk Amazon Nova Sonic](speech-code-examples.md)
+ [Menangani peristiwa masukan dengan API dua arah](input-events.md)
+ [Menangani peristiwa keluaran dengan API dua arah](output-events.md)
+ [Suara tersedia untuk Amazon Nova Sonic](available-voices.md)
+ [Menangani kesalahan dengan Amazon Nova Sonic](speech-errors.md)
+ [Penggunaan Alat, RAG, dan Aliran Agentik dengan Amazon Nova Sonic](speech-tools.md)

## Arsitektur Amazon Nova Sonic
<a name="speech-architecture"></a>

Amazon Nova Sonic mengimplementasikan arsitektur berbasis peristiwa melalui API aliran dua arah, memungkinkan pengalaman percakapan waktu nyata. Berikut adalah komponen arsitektur utama dari API:

1. **Streaming acara dua arah**: Amazon Nova Sonic menggunakan koneksi dua arah persisten yang memungkinkan streaming acara simultan di kedua arah. Tidak seperti pola permintaan-respons tradisional, pendekatan ini memungkinkan yang berikut:
   + Streaming audio terus menerus dari pengguna ke model
   + Pemrosesan dan generasi ucapan bersamaan
   + Respons model waktu nyata tanpa menunggu ucapan lengkap

1. **Aliran komunikasi berbasis peristiwa**: Seluruh interaksi mengikuti protokol berbasis peristiwa di mana
   + Klien dan model bertukar peristiwa JSON terstruktur
   + Siklus hidup sesi kontrol peristiwa, streaming audio, respons teks, dan interaksi alat
   + Setiap acara memiliki peran khusus dalam alur percakapan

API aliran dua arah terdiri dari tiga komponen utama ini:

1. **Inisialisasi sesi**: Klien membuat aliran dua arah dan mengirimkan peristiwa konfigurasi.

1. **Streaming audio**: Audio pengguna terus ditangkap, dikodekan, dan dialirkan sebagai peristiwa ke model, yang terus memproses pidato.

1. **Streaming respons**: Saat audio tiba, model secara bersamaan mengirimkan respons acara:
   + Transkripsi teks ucapan pengguna (ASR)
   + Acara penggunaan alat untuk panggilan fungsi
   + Respons teks model
   + Potongan audio untuk keluaran lisan

Diagram berikut memberikan gambaran tingkat tinggi dari API aliran dua arah.

![\[Diagram yang menjelaskan sistem streaming dua arah Amazon Nova Sonic.\]](http://docs.aws.amazon.com/id_id/nova/latest/userguide/images/nova-sonic-sequential.png)
