Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Akurasi
Evaluasi ini mengukur seberapa akurat kinerja model dalam suatu tugas dengan membandingkan output model dengan jawaban kebenaran dasar yang termasuk dalam kumpulan data.
Amazon SageMaker mendukung menjalankan evaluasi akurasi dari Amazon SageMaker Studio atau menggunakan fmeval
perpustakaan.
-
Menjalankan evaluasi di Studio: Pekerjaan evaluasi yang dibuat di Studio menggunakan default yang dipilih sebelumnya untuk mengevaluasi kinerja model dengan cepat.
-
Menjalankan evaluasi menggunakan
fmeval
pustaka: Pekerjaan evaluasi yang dibuat menggunakanfmeval
pustaka menawarkan opsi yang diperluas untuk mengonfigurasi evaluasi kinerja model.
Jenis tugas yang didukung
Evaluasi akurasi didukung untuk jenis tugas berikut dengan kumpulan data bawaan yang terkait. Kumpulan data bawaan menyertakan komponen kebenaran dasar yang digunakan untuk mengukur akurasi. Pengguna juga dapat membawa dataset mereka sendiri. Untuk informasi tentang memasukkan komponen kebenaran dasar dalam kumpulan data Anda, lihatEvaluasi model otomatis.
Secara default, SageMaker sampel 100 permintaan acak dari kumpulan data untuk evaluasi akurasi. Saat menggunakan fmeval
perpustakaan, ini dapat disesuaikan dengan meneruskan num_records
parameter ke evaluate
metode. Untuk informasi tentang menyesuaikan evaluasi pengetahuan faktual menggunakan fmeval
perpustakaan, lihat. Sesuaikan alur kerja Anda menggunakan pustaka fmeval
Jenis tugas | Kumpulan data bawaan | Catatan |
---|---|---|
Ringkasan teks | Gigaword, Dataset |
Kumpulan data bawaan hanya berbahasa Inggris, tetapi beberapa metrik adalah lan guage-agnostik. Anda dapat membawa dataset dalam bahasa apa pun. |
Menjawab pertanyaan | BoolQ |
Kumpulan data bawaan hanya berbahasa Inggris, tetapi beberapa metrik adalah lan guage-agnostik. Anda dapat membawa dataset dalam bahasa apa pun. |
Klasifikasi | Ulasan Pakaian E-Commerce Wanita |
Nilai yang dihitung
Skor yang diukur untuk mengevaluasi perubahan akurasi tergantung pada jenis tugas. Untuk informasi tentang struktur prompt yang diperlukan untuk evaluasi, lihatBuat pekerjaan evaluasi model otomatis di Studio.
Ringkasan
Untuk tugas meringkas, evaluasi akurasi mengukur seberapa akurat model dapat meringkas teks. Secara default, evaluasi ini membandingkan model pada dua kumpulan data bawaan yang berisi pasangan teks input dan jawaban kebenaran dasar. Ringkasan yang dihasilkan oleh model kemudian dibandingkan dengan jawaban kebenaran dasar menggunakan tiga metrik bawaan yang mengukur seberapa mirip ringkasan dengan cara yang berbeda. Semua skor ini dirata-ratakan di seluruh kumpulan data.
-
ROUGEskor: ROUGE skor adalah kelas metrik yang menghitung satuan kata yang tumpang tindih (N-gram) antara ringkasan yang dihasilkan oleh model dan ringkasan kebenaran dasar untuk mengukur kualitas ringkasan. Saat mengevaluasi ROUGE skor, skor yang lebih tinggi menunjukkan bahwa model mampu membuat ringkasan yang lebih baik.
-
Nilai berkisar dari
0
(tidak ada kecocokan) hingga1
(kecocokan sempurna). -
Metriknya tidak peka huruf besar/kecil.
-
Batasan: Mungkin tidak dapat diandalkan pada tugas ringkasan abstraktif karena skor bergantung pada tumpang tindih kata yang tepat.
-
Contoh ROUGE perhitungan bigram
-
Ringkasan kebenaran dasar: “Anjingnya bermain lempar tangkap dengan bola di taman.”
-
Ringkasan yang dihasilkan: “Anjingnya bermain dengan bola.”
-
ROUGE-2: Hitung jumlah bigram (dua kata yang berdekatan dalam sebuah kalimat) yang sama antara referensi dan kandidat. Ada 4 bigram umum (“the dog”, “dog played”, “with the”, “the ball”).
-
Bagilah dengan jumlah total bigram dalam ringkasan kebenaran dasar: 9
-
ROUGE-2 = 4/9 = 0.444
-
-
ROUGEskor default dalam pekerjaan evaluasi model otomatis Studio
Saat Anda membuat pekerjaan evaluasi model otomatis menggunakan Studio, SageMaker gunakan
N=2
N-gram yang digunakan dalam perhitungan ROUGE skor. Akibatnya, pekerjaan evaluasi model menggunakan bigram untuk pencocokan. Pekerjaan studio juga menggunakan porter stemmeruntuk menghapus sufiks kata dari semua petunjuk. Misalnya, string raining
terpotong menjadi.rain
-
ROUGEpilihan skor yang tersedia di
fmeval
perpustakaanMenggunakan
fmeval
perpustakaan, Anda dapat mengonfigurasi bagaimana ROUGE skor dihitung menggunakanSummarizationAccuracyConfig
parameter. Opsi berikut didukung:-
rouge_type
: panjang N-gram yang akan dicocokkan. Tiga nilai yang didukung adalah:-
ROUGE_1
cocok dengan kata tunggal (unigram) -
ROUGE_2
cocok dengan pasangan kata (bigram). Ini adalah nilai default. -
ROUGE_L
cocok dengan urutan umum terpanjang. Untuk menghitung urutan umum terpanjang, urutan kata dipertimbangkan, tetapi urutan tidak-
Sebagai contoh:
-
ringkasan model = 'Ini musim gugur'
-
referensi = 'Ini sekali lagi musim gugur'
-
Longest common subsequence(prediction, reference)=3
.
-
-
-
-
use_stemmer_for_rouge
: JikaTrue
(default), menggunakan porter stemmeruntuk menghapus sufiks kata. -
Misalnya: “hujan” terpotong menjadi “hujan”.
-
-
-
-
Metrik untuk Evaluasi Terjemahan dengan skor Eksplisit ORdering (METEOR): METEOR mirip dengan ROUGE -1, tetapi juga mencakup pencocokan batang dan sinonim. Ini memberikan pandangan yang lebih holistik tentang kualitas ringkasan dibandingkan denganROUGE, yang terbatas pada pencocokan n-gram sederhana. METEORSkor yang lebih tinggi biasanya menunjukkan akurasi yang lebih tinggi.
-
Batasan: Mungkin tidak dapat diandalkan pada tugas peringkasan abstraktif karena skor bergantung pada kata yang tepat dan kata sinonim yang tumpang tindih.
-
-
BERTScore: BERTScore menggunakan model ML tambahan dari BERT keluarga untuk menghitung penyematan kalimat dan membandingkan kesamaan kosinus mereka. Skor ini bertujuan untuk menjelaskan lebih banyak fleksibilitas linguistik daripada ROUGE dan METEOR karena kalimat yang mirip secara semantik dapat disematkan lebih dekat satu sama lain.
-
Keterbatasan:
-
Mewarisi keterbatasan model yang digunakan untuk membandingkan bagian-bagian.
-
Mungkin tidak dapat diandalkan untuk perbandingan teks pendek ketika satu kata penting diubah.
-
-
BERTScoredefault dalam pekerjaan evaluasi model otomatis Studio
Saat Anda membuat pekerjaan evaluasi model otomatis menggunakan Studio, SageMaker gunakan
deberta-xlarge-mnli
model untuk menghitungBERTScore. -
BERTScorepilihan yang tersedia di
fmeval
perpustakaanMenggunakan
fmeval
perpustakaan, Anda dapat mengkonfigurasi bagaimana BERTScore dihitung menggunakanSummarizationAccuracyConfig
parameter. Opsi berikut didukung:-
model_type_for_bertscore
: Nama model yang akan digunakan untuk penilaian. BERTScoresaat ini hanya mendukung model berikut:-
"microsoft/deberta-xlarge-mnli
(default)"
-
-
-
Menjawab pertanyaan
Untuk tugas menjawab pertanyaan, evaluasi akurasi mengukur kinerja penjawab pertanyaan (QA) model dengan membandingkan jawaban yang dihasilkan dengan jawaban kebenaran dasar yang diberikan dengan cara yang berbeda. Semua skor ini dirata-ratakan di seluruh kumpulan data.
catatan
Metrik ini dihitung dengan membandingkan jawaban kebenaran yang dihasilkan dan dasar untuk pencocokan yang tepat. Akibatnya, mereka mungkin kurang dapat diandalkan untuk pertanyaan di mana jawabannya dapat diulang tanpa mengubah maknanya.
-
Skor Precision Over Words: Skor numerik yang berkisar dari
0
(terburuk) dan1
(terbaik). Untuk menghitung skor ini, keluaran model dan kebenaran dasar dinormalisasi sebelum perbandingan. Sebelum menghitung presisi, evaluasi ini menghapus karakter baris baru untuk memperhitungkan jawaban verbose dengan beberapa paragraf berbeda. Presisi dapat dievaluasi pada bahasa apa pun jika Anda mengunggah kumpulan data Anda sendiri.-
precision = true positives / (true positives + false positives)
-
true positives
: Jumlah kata dalam keluaran model yang juga terkandung dalam kebenaran dasar. -
false positives
: Jumlah kata dalam keluaran model yang tidak terkandung dalam kebenaran dasar.
-
-
-
Skor Recall Over Words: Skor numerik yang berkisar dari
0
(terburuk) dan1
(terbaik). Untuk menghitung skor ini, keluaran model dan kebenaran dasar dinormalisasi sebelum perbandingan. Sebelum menghitung penarikan, evaluasi ini menghapus karakter baris baru untuk menjelaskan jawaban verbose dengan beberapa paragraf berbeda. Karena mengingat hanya memeriksa apakah jawabannya mengandung kebenaran dasar dan tidak menghukum verbositas, kami sarankan menggunakan recall untuk model verbose. Ingat dapat dievaluasi pada bahasa apa pun jika Anda mengunggah kumpulan data Anda sendiri.-
recall = true positives / (true positives + false negatives)
-
true positives
: Jumlah kata dalam keluaran model yang juga terkandung dalam kebenaran dasar. -
false negatives
: Jumlah kata yang hilang dari output model, tetapi termasuk dalam kebenaran dasar.
-
-
-
Skor F1 Over Words: Skor numerik yang berkisar dari
0
(terburuk) dan1
(terbaik). F1 adalah rata-rata harmonik presisi dan ingatan. Untuk menghitung skor ini, keluaran model dan kebenaran dasar dinormalisasi sebelum perbandingan. Sebelum menghitung F1, evaluasi ini menghapus karakter baris baru apa pun untuk memperhitungkan jawaban verbose dengan beberapa paragraf berbeda. F1 over words dapat dievaluasi pada bahasa apa pun jika Anda mengunggah kumpulan data Anda sendiri.-
F1 = 2*((precision * recall)/(precision + recall))
-
precision
: Presisi dihitung dengan cara yang sama seperti skor presisi. -
recall
: Recall dihitung dengan cara yang sama seperti skor recall.
-
-
-
Skor Exact Match (EM): Skor biner yang menunjukkan apakah keluaran model sama persis dengan jawaban kebenaran dasar. Pencocokan yang tepat dapat dievaluasi pada bahasa apa pun jika Anda mengunggah kumpulan data Anda sendiri.
-
0
: Bukan pertandingan yang tepat. -
1
: Persis cocok. -
Contoh:
-
Pertanyaan:
“
where is the world's largest ice sheet located today?”
-
Kebenaran dasar: “Antartika”
-
Jawaban yang dihasilkan: “di Antartika”
-
Skor: 0
-
-
Jawaban yang dihasilkan: “Antartika”
-
Skor: 1
-
-
-
-
Skor Quasi Exact Match: Skor biner yang dihitung mirip dengan skor EM, tetapi output model dan kebenaran dasar dinormalisasi sebelum perbandingan. Untuk keduanya, output dinormalisasi dengan mengubahnya menjadi huruf kecil, lalu menghapus artikel, tanda baca, dan spasi putih berlebih.
-
0
: Bukan kecocokan persis kuasi. -
1
: Pencocokan persis kuasi. -
Contoh:
-
Pertanyaan:
“
where is the world's largest ice sheet located today?”
-
Kebenaran dasar: “Antartika”
-
Jawaban yang dihasilkan: “di Amerika Selatan”
-
Skor: 0
-
-
Jawaban yang dihasilkan: “di Antartika”
-
Skor: 1
-
-
-
Klasifikasi
Untuk tugas klasifikasi, evaluasi akurasi membandingkan kelas input yang diprediksi dengan label yang diberikan. Semua skor ini dirata-ratakan secara individual di seluruh kumpulan data.
-
Skor akurasi: Skor biner yang menunjukkan apakah label yang diprediksi oleh model sama persis dengan label input yang diberikan.
-
0
: Bukan pertandingan yang tepat. -
1
: Persis cocok.
-
-
Skor presisi: Skor numerik yang berkisar dari
0
(terburuk) dan1
(terbaik).-
precision = true positives / (true positives + false positives)
-
true positives
: Input angka di mana model memprediksi label yang diberikan untuk masukan masing-masing. -
false positives
: Jumlah input di mana model memprediksi label yang tidak cocok dengan label yang diberikan untuk masukan masing-masing.
-
-
Default skor presisi dalam pekerjaan evaluasi model otomatis Studio
Saat Anda membuat pekerjaan evaluasi model otomatis menggunakan Studio, SageMaker hitung presisi secara global di semua kelas dengan menghitung jumlah total positif benar, negatif palsu, dan positif palsu.
-
Pilihan skor presisi tersedia di
fmeval
perpustakaanDengan menggunakan
fmeval
pustaka, Anda dapat mengonfigurasi bagaimana skor presisi dihitung menggunakanClassificationAccuracyConfig
parameter. Opsi berikut didukung:-
multiclass_average_strategy
menentukan bagaimana skor dikumpulkan di seluruh kelas dalam pengaturan klasifikasi multiclass. Nilai yang mungkin adalah{'micro', 'macro', 'samples', 'weighted', 'binary'}
atauNone
('micro'
default=). Dalam kasus default 'micro'
, presisi dihitung secara global di semua kelas dengan menghitung jumlah total positif benar, negatif palsu, dan positif palsu. Untuk semua opsi lainnya, lihat sklearn.metrics.precision_score. catatan
Untuk klasifikasi biner, sebaiknya gunakan strategi
'binary'
rata-rata, yang sesuai dengan definisi presisi klasik.
-
-
-
Skor recall: Skor numerik yang berkisar dari
0
(terburuk) dan1
(terbaik).-
recall = true positives / (true positives + false negatives)
-
true positives
: Jumlah input di mana model memprediksi label yang diberikan untuk masukan masing-masing. -
false negatives
: Jumlah input di mana model gagal memprediksi label yang diberikan untuk masukan masing-masing.
-
-
Ingat skor default dalam pekerjaan evaluasi model otomatis Studio
Saat Anda membuat pekerjaan evaluasi model otomatis menggunakan Studio, SageMaker hitung recall secara global di semua kelas dengan menghitung jumlah total positif benar, negatif palsu, dan positif palsu.
-
Pilihan skor recall tersedia di
fmeval
perpustakaanDengan menggunakan
fmeval
pustaka, Anda dapat mengonfigurasi bagaimana skor penarikan dihitung menggunakanClassificationAccuracyConfig
parameter. Opsi berikut didukung:-
multiclass_average_strategy
menentukan bagaimana skor dikumpulkan di seluruh kelas dalam pengaturan klasifikasi multiclass. Nilai yang mungkin adalah{'micro', 'macro', 'samples', 'weighted', 'binary'}
atauNone
('micro'
default=). Dalam kasus default 'micro'
, recall dihitung secara global di semua kelas dengan menghitung jumlah total positif benar, negatif palsu, dan positif palsu. Untuk semua opsi lainnya, lihat sklearn.metrics.precision_score. catatan
Untuk klasifikasi biner, kami sarankan menggunakan strategi
'binary'
rata-rata, yang sesuai dengan definisi klasik penarikan.
-
-
-
Akurasi klasifikasi seimbang: Skor numerik yang berkisar dari
0
(terburuk) dan1
(terbaik).-
Untuk klasifikasi biner: Skor ini dihitung sama dengan akurasi.
-
Untuk klasifikasi multiclass: Skor ini rata-rata skor ingatan individu untuk semua kelas.
-
Untuk contoh output berikut:
Teks ulasan Label kebenaran dasar Nama kelas Label yang diprediksi Kue lezat! Akan membeli lagi. 3 brownies 3 Kue lezat! R merekomendasikan. 2 kue pon 2 Mengerikan! Kue kotor. 1 kue pon 2 -
Ingat kelas 1: 0
-
Penarikan kelas 2: 1
-
Ingat kelas 3: 1
-
Akurasi klasifikasi seimbang: (0+1+1) /3 = 0,66
-
-
-