View a markdown version of this page

Inferensi inti - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Inferensi inti

Inferensi adalah proses pengiriman permintaan ke model Amazon Nova dan menerima respons yang dihasilkan. Model Amazon Nova mendukung inferensi melalui dua opsi API:

  • Converse API (Converse, ConverseStream): Menyediakan antarmuka yang konsisten di berbagai model, membuatnya lebih mudah untuk beralih antar model atau membangun aplikasi yang bekerja dengan beberapa model. Direkomendasikan untuk sebagian besar kasus penggunaan.

  • Invoke API (InvokeModel, InvokeModelWithResponseStream): Muatan permintaan disusun secara khusus untuk format asli setiap model. Menjalankan inferensi menggunakan parameter prompt dan inferensi yang disediakan di badan permintaan.

Keduanya APIs mendukung fitur inti yang sama termasuk:

  • Percakapan multi-giliran

  • Masukan multimodal (teks, gambar, video, audio)

  • Penggunaan alat

  • Pagar pembatas

  • Respons streaming

Struktur permintaan hampir identik antara keduanya APIs, hanya berbeda dalam cara data byte (dokumen, gambar, video dan audio) dikodekan.Untuk parameter permintaan model yang unik untuk model Amazon Nova, seperti reasoningConfig danTopK, ini ditempatkan dalam objek tambahan inferenceConfig di dalam file. additionalModelRequestFields Ini adalah parameter tingkat atas untuk InvokeModel danInvokeModelWithResponseStream.

catatan

Tinjau Sampel Kode dan Pemecahan Masalah untuk daftar sampel kode dengan model Nova 2.

Setel modelId ke salah satu dari berikut ini untuk menggunakan model Amazon Nova:

Model

ID Model

Nova 2 Lite
  • global.amazon.nova-2-lite-v 1:0

  • kami.amazon.nova-2-lite-v 1:0

Nova 2 Sonic

  • global.amazon.nova-2-sonic-v 1:0

  • kami.amazon.nova-2-sonic-v 1:0

Penyematan Multimodal Nova

amazon.nova-2- 1:0 multimodal-embeddings-v

Penting: Konfigurasi Batas Waktu

penting

Permintaan inferensi Amazon Nova dapat memakan waktu hingga 60 menit untuk diselesaikan. Konfigurasikan pengaturan batas waktu klien Anda sesuai:

Contoh berikut adalah kode Python. Pengguna dapat memeriksa dokumentasi untuk versi bahasa SDK pilihan mereka di dokumen API SDK tersebut.

from botocore.config import Config bedrock = boto3.client( 'bedrock-runtime', region_name='us-east-1', config=Config( read_timeout=3600 # 60 minutes ) )

Topik Inferensi Inti

Bagian ini membahas topik-topik berikut:

  • Menggunakan API converse: Antarmuka konsisten yang menawarkan kompatibilitas di sebagian besar model Bedrock

  • Menggunakan API pemanggilan: Antarmuka yang unik untuk model Nova dan tidak portabel ke model Bedrock lainnya

  • Respons streaming: Pembuatan respons waktu nyata

  • Menggunakan penyematan Amazon Nova: Kemampuan penyematan teks

  • Inferensi sesuai permintaan: Pay-per-use model inferensi