Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Dalam pekerjaan evaluasi model, jenis tugas evaluasi adalah tugas yang Anda ingin model lakukan berdasarkan informasi dalam petunjuk Anda. Anda dapat memilih satu jenis tugas per pekerjaan evaluasi model.
Tabel berikut merangkum jenis tugas yang tersedia untuk evaluasi model otomatis, kumpulan data bawaan, dan metrik yang relevan untuk setiap jenis tugas.
Jenis tugas | Metrik | Kumpulan data bawaan | Metrik yang dihitung |
---|---|---|---|
Generasi teks umum | Akurasi | TREX |
Skor pengetahuan dunia nyata (RWK) |
Kekokohan | Tingkat kesalahan kata | ||
TREX |
|||
WikiText2 |
|||
Toksisitas | Toksisitas | ||
BERANI |
|||
Ringkasan teks | Akurasi | Gigaword |
BERTScore |
Toksisitas | Gigaword |
Toksisitas | |
Kekokohan | Gigaword |
BERTScore dan delta BERTScore | |
Pertanyaan dan jawaban | Akurasi | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
Kekokohan | BoolQ |
F1 dan DeltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
Toksisitas | BoolQ |
Toksisitas | |
NaturalQuestions |
|||
TriviaQA |
|||
Klasifikasi teks | Akurasi | Ulasan Pakaian E-commerce Wanita |
Akurasi (Akurasi biner dari classification_accuracy_score) |
Kekokohan | Ulasan Pakaian E-commerce Wanita |
classification_accuracy_score dan delta_classification_accuracy_score |