Integrasi

Amazon Nova 2 Sonic dapat diintegrasikan dengan berbagai kerangka kerja dan platform untuk membangun aplikasi AI percakapan. Integrasi ini menyediakan komponen bawaan dan API yang disederhanakan untuk kasus penggunaan umum.

Agen Helai

Strands Agents adalah SDK sederhana namun kuat yang mengambil pendekatan berbasis model untuk membangun dan menjalankan agen AI. Dari asisten percakapan sederhana hingga alur kerja otonom yang kompleks, mulai dari pengembangan lokal hingga penyebaran produksi, Strands Agents menyesuaikan dengan kebutuhan Anda.

Untuk dokumentasi komprehensif tentang kerangka Strands, kunjungi dokumentasi Strands resmi.

Strands BidiAgent menyediakan interaksi audio dan teks real-time melalui koneksi streaming persisten. Tidak seperti pola permintaan-respons tradisional, agen ini mempertahankan percakapan yang berjalan lama dengan dukungan untuk interupsi, pemrosesan bersamaan, dan respons audio berkelanjutan.

Prasyarat:

Python 3.8 atau yang lebih baru diinstal
Kredensil untuk AWS dikonfigurasi dengan akses ke Amazon Bedrock
Keakraban dasar dengan sintaks Python async/await

Contoh kode:

Instalasi:

Instal paket yang diperlukan:


pip install strands-agents strands-agents-tools

Jalankan contoh ini:


import asyncio
from strands.experimental.bidi.agent import BidiAgent
from strands.experimental.bidi.io.audio import BidiAudioIO
from strands.experimental.bidi.io.text import BidiTextIO
from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel
from strands_tools import calculator

async def main():
    """Test the BidirectionalAgent API."""
    # Audio and Text input/output utility
    audio_io = BidiAudioIO(audio_config={})
    text_io = BidiTextIO()
    
    # Nova Sonic model
    model = BidiNovaSonicModel(region="us-east-1")
    
    async with BidiAgent(model=model, tools=[calculator]) as agent:
        print("New BidiAgent Experience")
        print("Try asking: 'What is 25 times 8?' or 'Calculate the square root of 144'")
        
        await agent.run(
            inputs=[audio_io.input()],
            outputs=[audio_io.output(), text_io.output()]
        )

if __name__ == "__main__":
    try:
        asyncio.run(main())
    except KeyboardInterrupt:
        print("\nConversation ended by user")
    except Exception as e:
        print(f"Error: {e}")
        import traceback
        traceback.print_exc()


from strands.experimental.bidi.agent import BidiAgent 
from strands.experimental.bidi.io.audio import BidiAudioIO 
from strands.experimental.bidi.io.text import BidiTextIO 
from strands.experimental.bidi.models.novasonic import BidiNovaSonicModel 
from strands_tools import calculator

BidiAgent: Kelas agen utama yang mengatur percakapan dua arah
BidiAudioIO: Menangani input dan output audio untuk interaksi ucapan
BidiTextIO: Menyediakan output teks untuk transkripsi dan tanggapan
BidiNovaSonicModel Pembungkus model Nova 2 Sonic
Kalkulator: Alat pra-bangun untuk operasi matematika


audio_io = BidiAudioIO(audio_config={}) 
text_io = BidiTextIO()

BidiAudioIO mengelola input mikrofon dan output speaker, sementara BidiText IO menampilkan transkripsi teks dan respons di konsol.


model = BidiNovaSonicModel(region="us-east-1")

Buat contoh model Nova Sonic. Parameter wilayah menentukan AWS wilayah tempat model digunakan.


async with BidiAgent(model=model, tools=[calculator]) as agent: 
    await agent.run( 
        inputs=[audio_io.input()],  
        outputs=[audio_io.output(), text_io.output()] 
    )

Agen dibuat dengan:

Model: Model Nova 2 Sonic untuk digunakan
Alat: Daftar alat yang dapat dipanggil agen (seperti kalkulator)
Input: Input audio dari mikrofon
Output: Output audio ke speaker dan output teks ke konsol

Integrasi kerangka kerja

Amazon Nova 2 Sonic dapat diintegrasikan dengan berbagai kerangka kerja dan platform untuk membangun aplikasi suara yang canggih. Contoh berikut menunjukkan pola integrasi dengan kerangka kerja populer.

Amazon Bedrock AgentCore menyediakan lingkungan runtime terkelola untuk menerapkan aplikasi Nova 2 Sonic dengan keamanan dan skalabilitas tingkat perusahaan. AgentCoremenyederhanakan penerapan aplikasi AI suara real-time dengan menangani infrastruktur, otentikasi, dan konektivitas. WebSocket

AgentCore arsitektur yang menunjukkan aplikasi klien terhubung melalui WebSocket ke wadah runtime dengan Nova Sonic.

Fitur utama:

Streaming dua arah - Dukungan asli untuk antarmuka streaming dupleks penuh Nova Sonic dengan pemrosesan acara waktu nyata dan komunikasi latensi rendah.
WebSocket infrastruktur - Production-ready WebSocket server dengan penskalaan otomatis, manajemen koneksi, dan pemulihan kesalahan.
Penyebaran kontainer - Menerapkan aplikasi Nova Sonic sebagai wadah ke infrastruktur terkelola dengan penskalaan horizontal dan versi independen.
Keamanan perusahaan - Fine-grained otentikasi melalui IAM dan SiGv4, isolasi VPC, dan pencatatan audit komprehensif.

Arsitektur menunjukkan bagaimana aplikasi klien terhubung ke AgentCore Runtime melalui WebSocket otentikasi SiGv4. Lingkungan kontainer mencakup WebSocket server Anda, logika aplikasi, dan klien Nova Sonic, semuanya berkomunikasi dengan Nova Sonic melalui API streaming dua arah.

Manfaat:

Operasi yang disederhanakan: Fokus pada logika aplikasi sambil AgentCore mengelola infrastruktur, penskalaan, dan keandalan.
Keamanan perusahaan: fitur Built-in otentikasi, otorisasi, dan kepatuhan untuk penerapan produksi.
Efisiensi biaya: Bayar hanya untuk apa yang Anda gunakan dengan penskalaan otomatis dan pengoptimalan sumber daya.
Produktivitas pengembang: Kurangi waktu produksi dengan WebSocket infrastruktur terkelola dan penyebaran kontainer.

Kasus penggunaan

Asisten suara layanan pelanggan dengan otentikasi aman
Aplikasi suara perusahaan yang membutuhkan integrasi IAM
Multi-tenant platform suara dengan penyebaran terisolasi
Voice-enabled aplikasi yang membutuhkan kepatuhan dan jalur audit

Untuk dokumentasi terperinci tentang penerapan Nova Sonic dengan AgentCore, kunjungi Dokumentasi Amazon Bedrock AgentCore .

LiveKit adalah platform sumber terbuka untuk membangun aplikasi audio dan video real-time. Integrasi dengan Amazon Nova 2 Sonic memungkinkan pengembang untuk membangun antarmuka suara percakapan tanpa mengelola pipeline audio yang kompleks atau protokol pensinyalan.

Untuk contoh implementasi rinci dan contoh kode, kunjungi Dokumentasi LiveKit AWS Integrasi.

Diagram arsitektur yang menunjukkan LiveKit integrasi dengan Amazon Bedrock menggunakan WebRTC dan Nova Sonic.

Cara kerjanya:

Lapisan klien: Aplikasi web, seluler, atau desktop terhubung menggunakan SDK LiveKit klien, yang menangani pengambilan audio, streaming WebRTC, dan pemutaran.
LiveKit Server: Bertindak sebagai pusat komunikasi real-time, mengelola koneksi WebRTC, merutekan aliran audio, dan menangani status sesi dengan optimasi latensi rendah.
LiveKit Agen: Python-based agen yang menerima audio dari server, memprosesnya melalui plugin Nova Sonic, dan mengalirkan respons kembali. Termasuk fitur bawaan seperti deteksi aktivitas suara dan manajemen belokan.
Amazon Nova 2 Sonic: Memproses aliran audio melalui API streaming dua arah, melakukan pengenalan suara, pemahaman bahasa alami, dan menghasilkan respons percakapan dengan ucapan yang disintesis.

Pipecat adalah kerangka kerja untuk membangun aplikasi AI percakapan suara dan multimodal. Ini menyediakan arsitektur modular berbasis pipa yang mengatur beberapa komponen untuk membuat aplikasi suara cerdas dengan Amazon Nova Sonic dan layanan lainnya. AWS

Untuk contoh implementasi terperinci dan contoh kode, kunjungi Dokumentasi PipeCat AWS Integrasi.

Fitur utama:

Arsitektur pipa: Python-based Kerangka kerja modular untuk menyusun komponen AI suara termasuk ASR, NLU, TTS, dan banyak lagi.
Aliran Pipecat: Kerangka kerja manajemen negara untuk membangun logika percakapan yang kompleks dan eksekusi alat.
Dukungan WebRTC Built-in : integrasi dengan Daily dan penyedia WebRTC lainnya untuk streaming audio real-time.
AWS Integrasi: Dukungan asli untuk Amazon Bedrock, Amazon Transcribe, dan Amazon Polly.

Diagram arsitektur yang menunjukkan aliran input suara melalui VAD, Amazon Transcribe, Aliran Pipecat, Amazon Bedrock, dan Amazon Polly ke output suara melalui WebRTC.

Arsitekturnya meliputi:

WebRTC Transport Real-time : streaming audio antara perangkat klien dan server aplikasi.
Deteksi aktivitas suara (VAD): Silero VAD dengan deteksi suara yang dapat dikonfigurasi dan peredam bising.
Pengenalan ucapan: Amazon Transcribe untuk konversi ucapan-ke-teks yang akurat dan real-time.
Pemahaman bahasa alami: Amazon Nova Pro di Bedrock dengan inferensi yang dioptimalkan untuk latensi.
Eksekusi alat: Aliran Pipecat untuk integrasi API dan panggilan layanan backend.
Generasi respons: Amazon Nova Pro untuk respons yang koheren dan sadar konteks.
Text-to-speech: Amazon Polly dengan suara generatif untuk keluaran ucapan yang hidup.

Terapkan aplikasi Nova Sonic Anda untuk AWS menggunakan infrastruktur sebagai kode dengan AWS CDK (Cloud Development Kit). Pendekatan ini menyediakan penerapan yang dapat diulang dan dikendalikan versi dengan praktik terbaik bawaan.

Opsi deployment

Amazon ECS (Elastic Container Service): Orkestrasi kontainer yang dikelola sepenuhnya dengan integrasi Application Load Balancer, auto-scaling, dan eksekusi Fargate tanpa server.
Amazon EKS (Elastic Kubernetes Services): Kubernetes yang dikelola untuk orkestrasi kompleks, jaringan lanjutan, penerapan multi-wilayah, dan ekosistem perkakas yang luas.
AWS CDK: AWS CDK memungkinkan Anda untuk mendefinisikan infrastruktur cloud menggunakan bahasa pemrograman yang sudah dikenal.

Untuk contoh lengkap yang siap produksi tentang penerapan Nova Sonic dengan AWS CDK, lihat Sampel CDK di. Speech-to-Speech GitHub Sampel ini menunjukkan:

Diagram arsitektur yang menunjukkan pengguna terhubung melalui HTTPS dan WebSocket ke situs web statis dan komponen layanan ucapan-ke-ucapan, dengan Amazon Bedrock integrasi untuk Nova Sonic.

Selesaikan pengaturan infrastruktur CDK dengan TypeScript
WebSocket implementasi server untuk komunikasi real-time
Penyebaran kontainer dengan ECS dan Fargate
Konfigurasi Application Load Balancer untuk dukungan WebSocket
Jaringan VPC dan pengaturan grup keamanan
CloudWatch pemantauan dan pencatatan
Praktik terbaik untuk penyebaran produksi

Multi-agent arsitektur adalah pola yang banyak digunakan untuk merancang asisten AI yang menangani tugas-tugas kompleks. Dalam asisten suara yang didukung oleh Nova 2 Sonic, arsitektur ini mengoordinasikan beberapa agen khusus, di mana setiap agen beroperasi secara independen untuk memungkinkan pemrosesan paralel, desain modular, dan solusi yang dapat diskalakan.

Nova Sonic berfungsi sebagai orkestrator dalam sistem multi-agen, melakukan dua fungsi utama:

Manajemen alur percakapan: Memastikan semua informasi yang diperlukan dikumpulkan sebelum melanjutkan ke langkah berikutnya dalam percakapan.

Klasifikasi maksud: Menganalisis pertanyaan pengguna dan merutekkannya ke sub-agen khusus yang sesuai.

Diagram arsitektur yang menunjukkan aliran panggilan dari pengguna melalui salam ke tiga agen yang menangani otentikasi, perbankan, dan layanan hipotek.

Diagram di atas menunjukkan asisten suara perbankan yang menggunakan arsitektur multi-agen. Alur percakapan dimulai dengan salam dan mengumpulkan nama pengguna, kemudian menangani pertanyaan terkait perbankan atau hipotek melalui sub-agen khusus.

Contoh alur percakapan:

Pengguna terhubung ke asisten suara.
Nova 2 Sonic: “Halo! Siapa namamu?”
Pengguna: “Nama saya John”
Nova 2 Sonic: “Hai John, bagaimana saya bisa membantu Anda hari ini?”
Pengguna: “Saya ingin memeriksa saldo akun saya”
Nova 2 Sonic: [Rute ke Agen Otentikasi]
Agen Otentikasi: “Harap berikan ID akun Anda”
Pengguna: “12345"
Agen Otentikasi: [Memverifikasi identitas]
Nova 2 Sonic: [Rute ke Agen Perbankan]
Agen Perbankan: “Saldo Anda saat ini adalah $5.431,10"

Meskipun contoh ini menunjukkan sub-agen menggunakan kerangka Strands Agents yang diterapkan di Amazon Bedrock AgentCore, arsitekturnya fleksibel. Anda dapat memilih:

Kerangka agen pilihan Anda
Penyedia LLM mana pun
Opsi hosting khusus
Pola orkestrasi yang berbeda

Manfaat:

Modularitas: Setiap agen berfokus pada domain tertentu, membuat sistem lebih mudah dirawat dan diperbarui.
Skalabilitas: Tambahkan agen baru tanpa memodifikasi yang sudah ada, memungkinkan sistem Anda tumbuh sesuai kebutuhan Anda.
Pemrosesan paralel: Beberapa agen dapat bekerja secara bersamaan, meningkatkan waktu respons untuk kueri yang kompleks.
Spesialisasi: Setiap agen dapat dioptimalkan untuk tugas spesifiknya, menggunakan alat dan basis pengetahuan yang paling tepat.
Isolasi kesalahan: Jika satu agen gagal, yang lain terus berfungsi, meningkatkan keandalan sistem secara keseluruhan.

Lihat blog ini untuk detail lebih lanjut dan contoh kode.

Lihat Multi-Agent Lab Lokakarya Nova Sonic untuk sampel langsung.

Amazon Nova 2 Sonic terintegrasi dengan penyedia telepon untuk memungkinkan aplikasi AI-powered suara dapat diakses melalui panggilan telepon. Panduan ini mencakup integrasi dengan Twilio, Vonage, dan SIP-based sistem lain untuk membangun solusi pusat kontak dan agen suara.

Twilio: Platform komunikasi cloud dengan kemampuan streaming suara dan media yang dapat diprogram.

Vonage: API komunikasi global dengan suara, streaming WebSocket audio, dan konektivitas SIP.

AWS menyediakan contoh implementasi komprehensif yang menunjukkan Nova Sonic di lingkungan pusat kontak dengan analisis real-time dan integrasi telepon.

Repositori: Contoh Pusat Kontak Sonic dengan Telepon

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Panggilan alat asinkron

Sistem canggih dengan Nova