Penting: Konfigurasi Batas Waktu Topik Inferensi Inti

Inferensi inti

Inferensi adalah proses pengiriman permintaan ke model Amazon Nova dan menerima respons yang dihasilkan. Model Amazon Nova mendukung inferensi melalui dua opsi API:

Converse API (Converse, ConverseStream): Menyediakan antarmuka yang konsisten di berbagai model, membuatnya lebih mudah untuk beralih antar model atau membangun aplikasi yang bekerja dengan beberapa model. Direkomendasikan untuk sebagian besar kasus penggunaan.
Invoke API (InvokeModel, InvokeModelWithResponseStream): Muatan permintaan disusun secara khusus untuk format asli setiap model. Menjalankan inferensi menggunakan parameter prompt dan inferensi yang disediakan di badan permintaan.

Keduanya APIs mendukung fitur inti yang sama termasuk:

Percakapan multi-giliran
Masukan multimodal (teks, gambar, video, audio)
Penggunaan alat
Pagar pembatas
Respons streaming

Struktur permintaan hampir identik antara keduanya APIs, hanya berbeda dalam cara data byte (dokumen, gambar, video dan audio) dikodekan.Untuk parameter permintaan model yang unik untuk model Amazon Nova, seperti reasoningConfig danTopK, ini ditempatkan dalam objek tambahan inferenceConfig di dalam file. additionalModelRequestFields Ini adalah parameter tingkat atas untuk InvokeModel danInvokeModelWithResponseStream.

catatan

Tinjau Sampel Kode dan Pemecahan Masalah untuk daftar sampel kode dengan model Nova 2.

Setel modelId ke salah satu dari berikut ini untuk menggunakan model Amazon Nova:

Model	ID Model
Nova 2 Lite	global.amazon.nova-2-lite-v 1:0 kami.amazon.nova-2-lite-v 1:0
Nova 2 Sonic	global.amazon.nova-2-sonic-v 1:0 kami.amazon.nova-2-sonic-v 1:0
Penyematan Multimodal Nova	amazon.nova-2- 1:0 multimodal-embeddings-v

Penting: Konfigurasi Batas Waktu

penting

Permintaan inferensi Amazon Nova dapat memakan waktu hingga 60 menit untuk diselesaikan. Konfigurasikan pengaturan batas waktu klien Anda sesuai:

Contoh berikut adalah kode Python. Pengguna dapat memeriksa dokumentasi untuk versi bahasa SDK pilihan mereka di dokumen API SDK tersebut.


from botocore.config import Config

bedrock = boto3.client(
    'bedrock-runtime',
    region_name='us-east-1',
    config=Config(
        read_timeout=3600  # 60 minutes
    )
)

Topik Inferensi Inti

Bagian ini membahas topik-topik berikut:

Menggunakan API converse: Antarmuka konsisten yang menawarkan kompatibilitas di sebagian besar model Bedrock
Menggunakan API pemanggilan: Antarmuka yang unik untuk model Nova dan tidak portabel ke model Bedrock lainnya
Respons streaming: Pembuatan respons waktu nyata
Menggunakan penyematan Amazon Nova: Kemampuan penyematan teks
Inferensi sesuai permintaan: Pay-per-use model inferensi

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memulai dengan API

Menggunakan Converse API