Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Membuat pekerjaan evaluasi model yang menggunakan LLM sebagai Hakim

Mode fokus
Membuat pekerjaan evaluasi model yang menggunakan LLM sebagai Hakim - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pekerjaan evaluasi model yang menggunakan model juri memungkinkan Anda menggunakan model LLM dasar untuk menilai respons model Anda, dan kemudian memberikan penjelasan mengapa pasangan prompt dan respons menerima skor. Skor dan penjelasan tersedia di kartu Laporan. Di kartu laporan, Anda dapat melihat histogram yang menunjukkan berapa kali respons menerima skor tertentu, dan penjelasan skor untuk lima petunjuk pertama yang ditemukan di kumpulan data Anda. Respons lengkap tersedia di bucket Amazon S3 spesifik Anda saat membuat pekerjaan evaluasi model.

Evaluasi model semacam ini membutuhkan dua model berbeda model Generator dan model Evaluator. Model generator merespons petunjuk yang ditemukan di kumpulan data Anda. Setelah merespons, model evaluator menilai respons berdasarkan metrik yang Anda pilih. Setiap metrik memiliki skor yang berbeda, dan menggunakan prompt yang berbeda untuk melakukan penilaian. Semua skor dinormalisasi ketika dilaporkan dalam output. Untuk melihat petunjuk yang digunakan untuk penilaian, lihat. Prompt evaluator berdasarkan yang digunakan dalam pekerjaan evaluasi model berbasis juri

Model evaluator yang didukung
  • Anda memerlukan akses ke setidaknya satu dari model yayasan Amazon Bedrock berikut. Ini adalah model juri yang tersedia. Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan wilayah, lihatAkses model fondasi Amazon Bedrock.

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.