AI21 Labs Model Jamba - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AI21 Labs Model Jamba

Bagian ini memberikan parameter inferensi dan contoh kode untuk menggunakan AI21 Labs Model Jamba.

Bidang yang diperlukan

Model AI21 Labs Jamba mendukung bidang wajib berikut ini:

  • Pesan (messages) — Pesan sebelumnya dalam obrolan ini, dari yang paling lama (indeks 0) hingga yang terbaru. Harus memiliki setidaknya satu pesan pengguna atau asisten dalam daftar. Sertakan input pengguna dan respons sistem. Ukuran total maksimum untuk daftar adalah sekitar 256K token. Setiap pesan mencakup anggota berikut:

  • Peran (role) — Peran penulis pesan. Salah satu nilai berikut:

    • User (user) - Masukan yang disediakan oleh pengguna. Setiap instruksi yang diberikan di sini yang bertentangan dengan instruksi yang diberikan dalam system prompt lebih diutamakan daripada instruksi system prompt.

    • Assistant (assistant) — Respon yang dihasilkan oleh model.

    • Sistem (system) — Instruksi awal yang diberikan kepada sistem untuk memberikan panduan umum tentang nada dan suara pesan yang dihasilkan. Pesan sistem awal bersifat opsional tetapi disarankan untuk memberikan panduan tentang nada obrolan. Misalnya, “Anda adalah chatbot yang membantu dengan latar belakang ilmu bumi dan aksen Prancis yang menawan.”

  • Konten (content) — Isi pesan.

Parameter inferensi

Model AI21 Labs Jamba mendukung parameter inferensi berikut.

Keacakan dan Keanekaragaman

Model AI21 Labs Jamba mendukung parameter berikut untuk mengontrol keacakan dan keragaman dalam respons.

  • Temperatur (temperature) — Berapa banyak variasi yang harus diberikan dalam setiap jawaban. Menetapkan nilai ini ke 0 menjamin respons yang sama terhadap pertanyaan yang sama setiap saat. Menetapkan nilai yang lebih tinggi mendorong lebih banyak variasi. Memodifikasi distribusi dari mana token diambil sampelnya. Default: 1.0, Rentang: 0.0 - 2.0

  • Top P (top_p) — Batasi kumpulan token berikutnya di setiap langkah ke persentil N teratas dari token yang mungkin, di mana 1.0 berarti kumpulan semua token yang mungkin, dan 0,01 berarti kumpulan hanya token berikutnya yang paling mungkin.

Panjang

Model AI21 Labs Jamba mendukung parameter berikut untuk mengontrol panjang respons yang dihasilkan.

  • Max completion length (max_tokens) — Jumlah maksimum token untuk memungkinkan setiap pesan respons yang dihasilkan. Biasanya cara terbaik untuk membatasi panjang output adalah dengan memberikan batas panjang dalam prompt sistem (misalnya, “batasi jawaban Anda untuk tiga kalimat”). Default: 4096, Rentang: 0 - 4096.

  • Stop sequences (stop) — Akhiri pesan saat model menghasilkan salah satu string ini. Urutan berhenti tidak termasuk dalam pesan yang dihasilkan. Setiap urutan bisa sampai 64K panjang, dan dapat berisi baris baru sebagai\nkarakter.

    Contoh:

    • Single stop string dengan kata dan titik: “monyet.”

    • Beberapa string stop dan baris baru: ["cat”, “dog”,” . “, “####”, "\n“]

  • Jumlah tanggapan (n) — Berapa banyak tanggapan obrolan yang akan dihasilkan. Catatan n harus 1 untuk tanggapan streaming. Jika n diatur ke lebih besar dari 1, pengaturan temperature=0 akan selalu gagal karena semua jawaban dijamin duplikat. Default:1, Rentang: 1 - 16

Pengulangan

Model AI21 Labs Jamba mendukung parameter berikut untuk mengontrol pengulangan dalam respons yang dihasilkan.

  • Penalti Frekuensi (frequency_penalty) — Kurangi frekuensi kata-kata yang diulang dalam satu pesan respons dengan meningkatkan angka ini. Hukuman ini secara bertahap meningkat semakin banyak kata muncul selama generasi respons. Pengaturan ke 2.0 akan menghasilkan string dengan sedikit, jika ada kata-kata yang diulang.

  • Penalti Kehadiran (presence_penalty) — Kurangi frekuensi kata-kata yang diulang dalam satu pesan dengan meningkatkan angka ini. Tidak seperti penalti frekuensi, penalti kehadiran adalah sama tidak peduli berapa kali sebuah kata muncul.

Bidang badan permintaan pemanggilan model

Ketika Anda membuat InvokeModelatau InvokeModelWithResponseStreammenelepon menggunakan AI21 Labs model, isi body bidang dengan JSON objek yang sesuai dengan yang di bawah ini. Masukkan prompt di prompt bidang.

{ "messages": [ { "role":"system", // Non-printing contextual information for the model "content":"You are a helpful history teacher. You are kind and you respond with helpful content in a professional manner. Limit your answers to three sentences. Your listener is a high school student." }, { "role":"user", // The question we want answered. "content":"Who was the first emperor of rome?" } ], "n":1 // Limit response to one answer }

Bidang tubuh respons pemanggilan model

Untuk informasi tentang format body bidang dalam respons, lihat https://docs.ai21.com/reference/jamba-instruct-api#response -details.

Contoh kode

Contoh ini menunjukkan cara memanggil model AI21Labs Jamba-Instruct.

invoke_model

import boto3 import json bedrock = session.client('bedrock-runtime', 'us-east-1') response = bedrock.invoke_model( modelId='ai21.jamba-instruct-v1:0', body=json.dumps({ 'messages': [ { 'role': 'user', 'content': 'which llm are you?' } ], }) ) print(json.dumps(json.loads(response['body']), indent=4))

bercakap-cakap

import boto3 import json bedrock = session.client('bedrock-runtime', 'us-east-1') response = bedrock.converse( modelId='ai21.jamba-instruct-v1:0', messages=[ { 'role': 'user', 'content': [ { 'text': 'which llm are you?' } ] } ] ) print(json.dumps(json.loads(response['body']), indent=4))

Contoh kode untuk Jamba 1.5 Large

Contoh ini menunjukkan cara memanggil model AI21Labs Jamba 1.5 Large.

invoke_model

POST https://bedrock-runtime.us-east-1.amazonaws.com/model/ai21.jamba-1-5-mini-v1:0/invoke-model HTTP/1.1 { "messages": [ { "role": "system", "content": "You are a helpful chatbot with a background in earth sciences and a charming French accent." }, { "role": "user", "content": "What are the main causes of earthquakes?" } ], "max_tokens": 512, "temperature": 0.7, "top_p": 0.9, "stop": ["###"], "n": 1 }