Membuat pekerjaan evaluasi model yang menggunakan LLM sebagai Hakim

Mode fokus

Membuat pekerjaan evaluasi model yang menggunakan LLM sebagai Hakim - Amazon Bedrock

Pekerjaan evaluasi model yang menggunakan model juri memungkinkan Anda menggunakan model LLM dasar untuk menilai respons model Anda, dan kemudian memberikan penjelasan mengapa pasangan prompt dan respons menerima skor. Skor dan penjelasan tersedia di kartu Laporan. Di kartu laporan, Anda dapat melihat histogram yang menunjukkan berapa kali respons menerima skor tertentu, dan penjelasan skor untuk lima petunjuk pertama yang ditemukan di kumpulan data Anda. Respons lengkap tersedia di bucket Amazon S3 spesifik Anda saat membuat pekerjaan evaluasi model.

Evaluasi model semacam ini membutuhkan dua model berbeda model Generator dan model Evaluator. Model generator merespons petunjuk yang ditemukan di kumpulan data Anda. Setelah merespons, model evaluator menilai respons berdasarkan metrik yang Anda pilih. Setiap metrik memiliki skor yang berbeda, dan menggunakan prompt yang berbeda untuk melakukan penilaian. Semua skor dinormalisasi ketika dilaporkan dalam output. Untuk melihat petunjuk yang digunakan untuk penilaian, lihat. Prompt evaluator berdasarkan yang digunakan dalam pekerjaan evaluasi model berbasis juri

Model evaluator yang didukung

Anda memerlukan akses ke setidaknya satu dari model yayasan Amazon Bedrock berikut. Ini adalah model juri yang tersedia. Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan wilayah, lihatAkses model fondasi Amazon Bedrock.
- Mistral Large – mistral.mistral-large-2402-v1:0
- Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0
- Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
- Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kelola tim kerja untuk evaluasi manusia

Menciptakan pekerjaan

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Membuat pekerjaan evaluasi model yang menggunakan LLM sebagai Hakim

Model evaluator yang didukung

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?