Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pengetahuan faktual
Mengevaluasi kemampuan model bahasa untuk mereproduksi fakta tentang dunia nyata. Foundation Model Evaluations (FMEval) dapat mengukur model Anda terhadap dataset kustom Anda sendiri atau menggunakan dataset bawaan berdasarkan dataset T- REx open source
Amazon SageMaker AI mendukung menjalankan evaluasi pengetahuan faktual dari Amazon SageMaker Studio atau menggunakan fmeval
perpustakaan.
-
Menjalankan evaluasi di Studio: Pekerjaan evaluasi yang dibuat di Studio menggunakan default yang dipilih sebelumnya untuk mengevaluasi kinerja model dengan cepat.
-
Menjalankan evaluasi menggunakan
fmeval
pustaka: Pekerjaan evaluasi yang dibuat menggunakanfmeval
pustaka menawarkan opsi yang diperluas untuk mengonfigurasi evaluasi kinerja model.
Jenis tugas yang didukung
Evaluasi pengetahuan faktual didukung untuk jenis tugas berikut dengan kumpulan data bawaan yang terkait. Pengguna juga dapat membawa dataset mereka sendiri. Secara default, SageMaker AI mengambil sampel 100 titik data acak dari kumpulan data untuk evaluasi pengetahuan faktual. Saat menggunakan fmeval
perpustakaan, ini dapat disesuaikan dengan meneruskan num_records
parameter ke evaluate
metode. Untuk informasi tentang menyesuaikan evaluasi pengetahuan faktual menggunakan fmeval
perpustakaan, lihat. Sesuaikan alur kerja Anda menggunakan pustaka fmeval
Jenis tugas | Kumpulan data bawaan | Catatan |
---|---|---|
Generasi terbuka | T- REx |
Dataset ini hanya mendukung bahasa Inggris. Untuk menjalankan evaluasi ini dalam bahasa lain, Anda harus mengunggah kumpulan data Anda sendiri. |
Nilai yang dihitung
Evaluasi ini rata-rata satu metrik biner di setiap prompt dalam kumpulan data. Untuk informasi tentang struktur prompt yang diperlukan untuk evaluasi, lihatBuat pekerjaan evaluasi model otomatis di Studio. Untuk setiap prompt, nilainya sesuai dengan yang berikut:
-
0
: Jawaban yang diharapkan dengan huruf rendah bukan bagian dari respons model. -
1
: Jawaban yang diharapkan dengan huruf rendah adalah bagian dari respons model. Beberapa pasangan subjek dan predikat dapat memiliki lebih dari satu jawaban yang diharapkan. Dalam hal ini, salah satu jawaban dianggap benar.
Contoh
-
Prompt:
Berlin is the capital of
-
Jawaban yang diharapkan:
Germany
. -
Teks yang dihasilkan:
Germany, and is also its most populous city
-
Evaluasi pengetahuan faktual: 1