Jenis tugas yang didukung Nilai yang dihitung Contoh

Pengetahuan faktual

Mengevaluasi kemampuan model bahasa untuk mereproduksi fakta tentang dunia nyata. Foundation Model Evaluations (FMEval) dapat mengukur model Anda terhadap dataset kustom Anda sendiri atau menggunakan dataset bawaan berdasarkan dataset T- REx open source.

Amazon SageMaker AI mendukung menjalankan evaluasi pengetahuan faktual dari Amazon SageMaker Studio atau menggunakan fmeval perpustakaan.

Menjalankan evaluasi di Studio: Pekerjaan evaluasi yang dibuat di Studio menggunakan default yang dipilih sebelumnya untuk mengevaluasi kinerja model dengan cepat.
Menjalankan evaluasi menggunakan fmeval pustaka: Pekerjaan evaluasi yang dibuat menggunakan fmeval pustaka menawarkan opsi yang diperluas untuk mengonfigurasi evaluasi kinerja model.

Jenis tugas yang didukung

Evaluasi pengetahuan faktual didukung untuk jenis tugas berikut dengan kumpulan data bawaan yang terkait. Pengguna juga dapat membawa dataset mereka sendiri. Secara default, SageMaker AI mengambil sampel 100 titik data acak dari kumpulan data untuk evaluasi pengetahuan faktual. Saat menggunakan fmeval perpustakaan, ini dapat disesuaikan dengan meneruskan num_records parameter ke evaluate metode. Untuk informasi tentang menyesuaikan evaluasi pengetahuan faktual menggunakan fmeval perpustakaan, lihat. Sesuaikan alur kerja Anda menggunakan pustaka fmeval

Jenis tugas	Kumpulan data bawaan	Catatan
Generasi terbuka	T- REx	Dataset ini hanya mendukung bahasa Inggris. Untuk menjalankan evaluasi ini dalam bahasa lain, Anda harus mengunggah kumpulan data Anda sendiri.

Nilai yang dihitung

Evaluasi ini rata-rata satu metrik biner di setiap prompt dalam kumpulan data. Untuk informasi tentang struktur prompt yang diperlukan untuk evaluasi, lihatBuat pekerjaan evaluasi model otomatis di Studio. Untuk setiap prompt, nilainya sesuai dengan yang berikut:

0: Jawaban yang diharapkan dengan huruf rendah bukan bagian dari respons model.
1: Jawaban yang diharapkan dengan huruf rendah adalah bagian dari respons model. Beberapa pasangan subjek dan predikat dapat memiliki lebih dari satu jawaban yang diharapkan. Dalam hal ini, salah satu jawaban dianggap benar.

Contoh

Prompt: Berlin is the capital of
Jawaban yang diharapkan:Germany.
Teks yang dihasilkan: Germany, and is also its most populous city
Evaluasi pengetahuan faktual: 1

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Akurasi

Stereotip cepat