Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pekerjaan evaluasi model yang menggunakan model juri memungkinkan Anda menggunakan model LLM dasar untuk menilai respons model Anda, dan kemudian memberikan penjelasan mengapa pasangan prompt dan respons menerima skor. Skor dan penjelasan tersedia di kartu Laporan. Di kartu laporan, Anda dapat melihat histogram yang menunjukkan berapa kali respons menerima skor tertentu, dan penjelasan skor untuk lima petunjuk pertama yang ditemukan di kumpulan data Anda. Respons lengkap tersedia di bucket Amazon S3 spesifik Anda saat membuat pekerjaan evaluasi model.
Evaluasi model semacam ini membutuhkan dua model berbeda model Generator dan model Evaluator. Model generator merespons petunjuk yang ditemukan di kumpulan data Anda. Setelah merespons, model evaluator menilai respons berdasarkan metrik yang Anda pilih. Setiap metrik memiliki skor yang berbeda, dan menggunakan prompt yang berbeda untuk melakukan penilaian. Semua skor dinormalisasi ketika dilaporkan dalam output. Untuk melihat petunjuk yang digunakan untuk penilaian, lihat. Prompt evaluator berdasarkan yang digunakan dalam pekerjaan evaluasi model berbasis juri
Model evaluator yang didukung
-
Anda memerlukan akses ke setidaknya satu dari model yayasan Amazon Bedrock berikut. Ini adalah model juri yang tersedia. Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan wilayah, lihatAkses model fondasi Amazon Bedrock.
-
Mistral Large –
mistral.mistral-large-2402-v1:0
-
Anthropic Claude 3.5 Sonnet –
anthropic.claude-3-5-sonnet-20240620-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-