View a markdown version of this page

Integrasi - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Integrasi

Amazon Nova 2 Sonic dapat diintegrasikan dengan berbagai kerangka kerja dan platform untuk membangun aplikasi AI percakapan. Integrasi ini menyediakan komponen bawaan dan API yang disederhanakan untuk kasus penggunaan umum.

Agen Helai

Strands Agents adalah SDK sederhana namun kuat yang mengambil pendekatan berbasis model untuk membangun dan menjalankan agen AI. Dari asisten percakapan sederhana hingga alur kerja otonom yang kompleks, mulai dari pengembangan lokal hingga penyebaran produksi, Strands Agents menyesuaikan dengan kebutuhan Anda.

Untuk dokumentasi komprehensif tentang kerangka Strands, kunjungi dokumentasi Strands resmi.

Strands BidiAgent menyediakan interaksi audio dan teks real-time melalui koneksi streaming persisten. Tidak seperti pola permintaan-respons tradisional, agen ini mempertahankan percakapan yang berjalan lama dengan dukungan untuk interupsi, pemrosesan bersamaan, dan respons audio berkelanjutan.

Prasyarat:

  • Python 3.8 atau yang lebih baru diinstal

  • Kredensil untuk AWS dikonfigurasi dengan akses ke Amazon Bedrock

  • Keakraban dasar dengan sintaks Python async/await

Contoh kode:

Instalasi:

Instal paket yang diperlukan:

pip install strands-agents strands-agents-tools

Jalankan contoh ini:

import asyncio from strands.experimental.bidi.agent import BidiAgent from strands.experimental.bidi.io.audio import BidiAudioIO from strands.experimental.bidi.io.text import BidiTextIO from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel from strands_tools import calculator async def main(): """Test the BidirectionalAgent API.""" # Audio and Text input/output utility audio_io = BidiAudioIO(audio_config={}) text_io = BidiTextIO() # Nova Sonic model model = BidiNovaSonicModel(region="us-east-1") async with BidiAgent(model=model, tools=[calculator]) as agent: print("New BidiAgent Experience") print("Try asking: 'What is 25 times 8?' or 'Calculate the square root of 144'") await agent.run( inputs=[audio_io.input()], outputs=[audio_io.output(), text_io.output()] ) if __name__ == "__main__": try: asyncio.run(main()) except KeyboardInterrupt: print("\nConversation ended by user") except Exception as e: print(f"Error: {e}") import traceback traceback.print_exc()
from strands.experimental.bidi.agent import BidiAgent from strands.experimental.bidi.io.audio import BidiAudioIO from strands.experimental.bidi.io.text import BidiTextIO from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel from strands_tools import calculator
  • BidiAgent: Kelas agen utama yang mengatur percakapan dua arah

  • BidiAudioIO: Menangani input dan output audio untuk interaksi ucapan

  • BidiTextIO: Menyediakan output teks untuk transkripsi dan tanggapan

  • BidiNovaSonicModel Pembungkus model Nova 2 Sonic

  • Kalkulator: Alat pra-bangun untuk operasi matematika

audio_io = BidiAudioIO(audio_config={}) text_io = BidiTextIO()

BidiAudioIO mengelola input mikrofon dan output speaker, sementara BidiText IO menampilkan transkripsi teks dan respons di konsol.

model = BidiNovaSonicModel(region="us-east-1")

Buat contoh model Nova Sonic. Parameter wilayah menentukan AWS wilayah tempat model digunakan.

async with BidiAgent(model=model, tools=[calculator]) as agent: await agent.run( inputs=[audio_io.input()], outputs=[audio_io.output(), text_io.output()] )

Agen dibuat dengan:

  • Model: Model Nova 2 Sonic untuk digunakan

  • Alat: Daftar alat yang dapat dipanggil agen (seperti kalkulator)

  • Input: Input audio dari mikrofon

  • Output: Output audio ke speaker dan output teks ke konsol

Integrasi kerangka kerja

Amazon Nova 2 Sonic dapat diintegrasikan dengan berbagai kerangka kerja dan platform untuk membangun aplikasi suara yang canggih. Contoh berikut menunjukkan pola integrasi dengan kerangka kerja populer.

Amazon Bedrock AgentCore menyediakan lingkungan runtime terkelola untuk menerapkan aplikasi Nova 2 Sonic dengan keamanan dan skalabilitas tingkat perusahaan. AgentCoremenyederhanakan penerapan aplikasi AI suara real-time dengan menangani infrastruktur, otentikasi, dan konektivitas. WebSocket

AgentCore arsitektur yang menunjukkan aplikasi klien terhubung melalui WebSocket ke wadah runtime dengan Nova Sonic.

Fitur utama:

  • Streaming dua arah - Dukungan asli untuk antarmuka streaming dupleks penuh Nova Sonic dengan pemrosesan acara waktu nyata dan komunikasi latensi rendah.

  • WebSocket infrastruktur - Production-ready WebSocket server dengan penskalaan otomatis, manajemen koneksi, dan pemulihan kesalahan.

  • Penyebaran kontainer - Menerapkan aplikasi Nova Sonic sebagai wadah ke infrastruktur terkelola dengan penskalaan horizontal dan versi independen.

  • Keamanan perusahaan - Fine-grained otentikasi melalui IAM dan SiGv4, isolasi VPC, dan pencatatan audit komprehensif.

Arsitektur menunjukkan bagaimana aplikasi klien terhubung ke AgentCore Runtime melalui WebSocket otentikasi SiGv4. Lingkungan kontainer mencakup WebSocket server Anda, logika aplikasi, dan klien Nova Sonic, semuanya berkomunikasi dengan Nova Sonic melalui API streaming dua arah.

Manfaat:

  • Operasi yang disederhanakan: Fokus pada logika aplikasi sambil AgentCore mengelola infrastruktur, penskalaan, dan keandalan.

  • Keamanan perusahaan: fitur Built-in otentikasi, otorisasi, dan kepatuhan untuk penerapan produksi.

  • Efisiensi biaya: Bayar hanya untuk apa yang Anda gunakan dengan penskalaan otomatis dan pengoptimalan sumber daya.

  • Produktivitas pengembang: Kurangi waktu produksi dengan WebSocket infrastruktur terkelola dan penyebaran kontainer.

Kasus penggunaan

  • Asisten suara layanan pelanggan dengan otentikasi aman

  • Aplikasi suara perusahaan yang membutuhkan integrasi IAM

  • Multi-tenant platform suara dengan penyebaran terisolasi

  • Voice-enabled aplikasi yang membutuhkan kepatuhan dan jalur audit

Untuk dokumentasi terperinci tentang penerapan Nova Sonic dengan AgentCore, kunjungi Dokumentasi Amazon Bedrock AgentCore .

LiveKit adalah platform sumber terbuka untuk membangun aplikasi audio dan video real-time. Integrasi dengan Amazon Nova 2 Sonic memungkinkan pengembang untuk membangun antarmuka suara percakapan tanpa mengelola pipeline audio yang kompleks atau protokol pensinyalan.

Untuk contoh implementasi rinci dan contoh kode, kunjungi Dokumentasi LiveKit AWS Integrasi.

Diagram arsitektur yang menunjukkan LiveKit integrasi dengan Amazon Bedrock menggunakan WebRTC dan Nova Sonic.

Cara kerjanya:

  • Lapisan klien: Aplikasi web, seluler, atau desktop terhubung menggunakan SDK LiveKit klien, yang menangani pengambilan audio, streaming WebRTC, dan pemutaran.

  • LiveKit Server: Bertindak sebagai pusat komunikasi real-time, mengelola koneksi WebRTC, merutekan aliran audio, dan menangani status sesi dengan optimasi latensi rendah.

  • LiveKit Agen: Python-based agen yang menerima audio dari server, memprosesnya melalui plugin Nova Sonic, dan mengalirkan respons kembali. Termasuk fitur bawaan seperti deteksi aktivitas suara dan manajemen belokan.

  • Amazon Nova 2 Sonic: Memproses aliran audio melalui API streaming dua arah, melakukan pengenalan suara, pemahaman bahasa alami, dan menghasilkan respons percakapan dengan ucapan yang disintesis.

Pipecat adalah kerangka kerja untuk membangun aplikasi AI percakapan suara dan multimodal. Ini menyediakan arsitektur modular berbasis pipa yang mengatur beberapa komponen untuk membuat aplikasi suara cerdas dengan Amazon Nova Sonic dan layanan lainnya. AWS

Untuk contoh implementasi terperinci dan contoh kode, kunjungi Dokumentasi PipeCat AWS Integrasi.

Fitur utama:

  • Arsitektur pipa: Python-based Kerangka kerja modular untuk menyusun komponen AI suara termasuk ASR, NLU, TTS, dan banyak lagi.

  • Aliran Pipecat: Kerangka kerja manajemen negara untuk membangun logika percakapan yang kompleks dan eksekusi alat.

  • Dukungan WebRTC Built-in : integrasi dengan Daily dan penyedia WebRTC lainnya untuk streaming audio real-time.

  • AWS Integrasi: Dukungan asli untuk Amazon Bedrock, Amazon Transcribe, dan Amazon Polly.

Diagram arsitektur yang menunjukkan aliran input suara melalui VAD, Amazon Transcribe, Aliran Pipecat, Amazon Bedrock, dan Amazon Polly ke output suara melalui WebRTC.

Arsitekturnya meliputi:

  • WebRTC Transport Real-time : streaming audio antara perangkat klien dan server aplikasi.

  • Deteksi aktivitas suara (VAD): Silero VAD dengan deteksi suara yang dapat dikonfigurasi dan peredam bising.

  • Pengenalan ucapan: Amazon Transcribe untuk konversi ucapan-ke-teks yang akurat dan real-time.

  • Pemahaman bahasa alami: Amazon Nova Pro di Bedrock dengan inferensi yang dioptimalkan untuk latensi.

  • Eksekusi alat: Aliran Pipecat untuk integrasi API dan panggilan layanan backend.

  • Generasi respons: Amazon Nova Pro untuk respons yang koheren dan sadar konteks.

  • Text-to-speech: Amazon Polly dengan suara generatif untuk keluaran ucapan yang hidup.

Terapkan aplikasi Nova Sonic Anda untuk AWS menggunakan infrastruktur sebagai kode dengan AWS CDK (Cloud Development Kit). Pendekatan ini menyediakan penerapan yang dapat diulang dan dikendalikan versi dengan praktik terbaik bawaan.

Opsi deployment

  • Amazon ECS (Elastic Container Service): Orkestrasi kontainer yang dikelola sepenuhnya dengan integrasi Application Load Balancer, auto-scaling, dan eksekusi Fargate tanpa server.

  • Amazon EKS (Elastic Kubernetes Services): Kubernetes yang dikelola untuk orkestrasi kompleks, jaringan lanjutan, penerapan multi-wilayah, dan ekosistem perkakas yang luas.

  • AWS CDK: AWS CDK memungkinkan Anda untuk mendefinisikan infrastruktur cloud menggunakan bahasa pemrograman yang sudah dikenal.

Untuk contoh lengkap yang siap produksi tentang penerapan Nova Sonic dengan AWS CDK, lihat Sampel CDK di. Speech-to-Speech GitHub Sampel ini menunjukkan:

Diagram arsitektur yang menunjukkan pengguna terhubung melalui HTTPS dan WebSocket ke situs web statis dan komponen layanan ucapan-ke-ucapan, dengan Amazon Bedrock integrasi untuk Nova Sonic.
  • Selesaikan pengaturan infrastruktur CDK dengan TypeScript

  • WebSocket implementasi server untuk komunikasi real-time

  • Penyebaran kontainer dengan ECS dan Fargate

  • Konfigurasi Application Load Balancer untuk dukungan WebSocket

  • Jaringan VPC dan pengaturan grup keamanan

  • CloudWatch pemantauan dan pencatatan

  • Praktik terbaik untuk penyebaran produksi

Multi-agent arsitektur adalah pola yang banyak digunakan untuk merancang asisten AI yang menangani tugas-tugas kompleks. Dalam asisten suara yang didukung oleh Nova 2 Sonic, arsitektur ini mengoordinasikan beberapa agen khusus, di mana setiap agen beroperasi secara independen untuk memungkinkan pemrosesan paralel, desain modular, dan solusi yang dapat diskalakan.

Nova Sonic berfungsi sebagai orkestrator dalam sistem multi-agen, melakukan dua fungsi utama:

Manajemen alur percakapan: Memastikan semua informasi yang diperlukan dikumpulkan sebelum melanjutkan ke langkah berikutnya dalam percakapan.

Klasifikasi maksud: Menganalisis pertanyaan pengguna dan merutekkannya ke sub-agen khusus yang sesuai.

Diagram arsitektur yang menunjukkan aliran panggilan dari pengguna melalui salam ke tiga agen yang menangani otentikasi, perbankan, dan layanan hipotek.

Diagram di atas menunjukkan asisten suara perbankan yang menggunakan arsitektur multi-agen. Alur percakapan dimulai dengan salam dan mengumpulkan nama pengguna, kemudian menangani pertanyaan terkait perbankan atau hipotek melalui sub-agen khusus.

Contoh alur percakapan:

  1. Pengguna terhubung ke asisten suara.

  2. Nova 2 Sonic: “Halo! Siapa namamu?”

  3. Pengguna: “Nama saya John”

  4. Nova 2 Sonic: “Hai John, bagaimana saya bisa membantu Anda hari ini?”

  5. Pengguna: “Saya ingin memeriksa saldo akun saya”

  6. Nova 2 Sonic: [Rute ke Agen Otentikasi]

  7. Agen Otentikasi: “Harap berikan ID akun Anda”

  8. Pengguna: “12345"

  9. Agen Otentikasi: [Memverifikasi identitas]

  10. Nova 2 Sonic: [Rute ke Agen Perbankan]

  11. Agen Perbankan: “Saldo Anda saat ini adalah $5.431,10"

Meskipun contoh ini menunjukkan sub-agen menggunakan kerangka Strands Agents yang diterapkan di Amazon Bedrock AgentCore, arsitekturnya fleksibel. Anda dapat memilih:

  • Kerangka agen pilihan Anda

  • Penyedia LLM mana pun

  • Opsi hosting khusus

  • Pola orkestrasi yang berbeda

Manfaat:

  • Modularitas: Setiap agen berfokus pada domain tertentu, membuat sistem lebih mudah dirawat dan diperbarui.

  • Skalabilitas: Tambahkan agen baru tanpa memodifikasi yang sudah ada, memungkinkan sistem Anda tumbuh sesuai kebutuhan Anda.

  • Pemrosesan paralel: Beberapa agen dapat bekerja secara bersamaan, meningkatkan waktu respons untuk kueri yang kompleks.

  • Spesialisasi: Setiap agen dapat dioptimalkan untuk tugas spesifiknya, menggunakan alat dan basis pengetahuan yang paling tepat.

  • Isolasi kesalahan: Jika satu agen gagal, yang lain terus berfungsi, meningkatkan keandalan sistem secara keseluruhan.

Lihat blog ini untuk detail lebih lanjut dan contoh kode.

Lihat Multi-Agent Lab Lokakarya Nova Sonic untuk sampel langsung.

Amazon Nova 2 Sonic terintegrasi dengan penyedia telepon untuk memungkinkan aplikasi AI-powered suara dapat diakses melalui panggilan telepon. Panduan ini mencakup integrasi dengan Twilio, Vonage, dan SIP-based sistem lain untuk membangun solusi pusat kontak dan agen suara.

Twilio: Platform komunikasi cloud dengan kemampuan streaming suara dan media yang dapat diprogram.

Vonage: API komunikasi global dengan suara, streaming WebSocket audio, dan konektivitas SIP.

AWS menyediakan contoh implementasi komprehensif yang menunjukkan Nova Sonic di lingkungan pusat kontak dengan analisis real-time dan integrasi telepon.

Repositori: Contoh Pusat Kontak Sonic dengan Telepon