Tinjau metrik untuk pekerjaan evaluasi model otomatis di Amazon Bedrock (konsol)

Anda dapat meninjau metrik yang disajikan dalam laporan untuk pekerjaan evaluasi model otomatis menggunakan konsol Amazon Bedrock.

Dalam kartu laporan evaluasi model Anda, Anda akan melihat jumlah total permintaan dalam kumpulan data yang Anda berikan atau pilih, dan berapa banyak dari permintaan tersebut yang menerima tanggapan. Jika jumlah tanggapan kurang dari jumlah permintaan input, pastikan untuk memeriksa file keluaran data di bucket Amazon S3 Anda. Ada kemungkinan bahwa prompt menyebabkan kesalahan dengan model dan tidak ada inferensi yang diambil. Hanya tanggapan dari model yang akan digunakan dalam perhitungan metrik.

Gunakan prosedur berikut untuk meninjau pekerjaan evaluasi model otomatis di konsol Amazon Bedrock.

Buka konsol Amazon Bedrock.
Dari panel navigasi, pilih Evaluasi model.
Selanjutnya, dalam tabel Evaluasi model temukan nama pekerjaan evaluasi model otomatis yang ingin Anda tinjau. Kemudian, pilihlah.

Dalam semua metrik terkait ketahanan semantik, Amazon Bedrock mengganggu meminta dengan cara berikut: mengonversi teks ke semua huruf kecil, kesalahan ketik keyboard, mengonversi angka menjadi kata, perubahan acak ke huruf besar, dan spasi acak. addition/deletion

Setelah Anda membuka laporan evaluasi model, Anda dapat melihat metrik yang diringkas, dan ringkasan konfigurasi Job dari pekerjaan tersebut.

Untuk setiap metrik dan kumpulan data prompt yang ditentukan saat pekerjaan dibuat, Anda melihat kartu, dan nilai untuk setiap kumpulan data yang ditentukan untuk metrik tersebut. Cara nilai ini dihitung berubah berdasarkan jenis tugas dan metrik yang Anda pilih.

Bagaimana setiap metrik yang tersedia dihitung saat diterapkan pada jenis tugas pembuatan teks umum

Akurasi: Untuk metrik ini, nilainya dihitung menggunakan skor pengetahuan dunia nyata (skor RWK). Skor RWK meneliti kemampuan model untuk menyandikan pengetahuan faktual tentang dunia nyata. Skor RWK yang tinggi menunjukkan bahwa model Anda akurat.
Kekokohan: Untuk metrik ini, nilainya dihitung menggunakan ketahanan semantik. Yang dihitung menggunakan tingkat kesalahan kata. Kekokohan semantik mengukur seberapa besar output model berubah sebagai akibat dari gangguan pengawetan semantik kecil, dalam input. Kekokohan terhadap gangguan semacam itu adalah properti yang diinginkan, dan dengan demikian skor ketahanan semantik yang rendah menunjukkan model Anda berkinerja baik.

Jenis gangguan yang akan kami pertimbangkan adalah: mengonversi teks ke semua huruf kecil, kesalahan ketik keyboard, mengonversi angka menjadi kata, perubahan acak ke huruf besar dan spasi acak. addition/deletion Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis.
Toksisitas: Untuk metrik ini, nilainya dihitung menggunakan toksisitas dari algoritma detoksifikasi. Nilai toksisitas yang rendah menunjukkan bahwa model yang Anda pilih tidak menghasilkan kandungan beracun dalam jumlah besar. Untuk mempelajari lebih lanjut tentang algoritma detoksifikasi dan melihat bagaimana toksisitas dihitung, lihat algoritma detoksifikasi. GitHub

Bagaimana setiap metrik yang tersedia dihitung saat diterapkan pada jenis tugas ringkasan teks

Akurasi: Untuk metrik ini, nilainya dihitung menggunakan Skor BERT. Skor BERT dihitung menggunakan penyematan kontekstual pra-terlatih dari model BERT. Ini cocok dengan kata-kata dalam kandidat dan kalimat referensi dengan kesamaan kosinus.
Kekokohan: Untuk metrik ini, nilai yang dihitung adalah persentase. Ini dihitung dengan mengambil (Delta BertScore /BertScore) x 100. Delta BertScore adalah perbedaan Skor BERT antara prompt yang terganggu dan prompt asli dalam kumpulan data Anda. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis. Skor yang lebih rendah menunjukkan model yang dipilih lebih kuat.
Toksisitas: Untuk metrik ini, nilainya dihitung menggunakan toksisitas dari algoritma detoksifikasi. Nilai toksisitas yang rendah menunjukkan bahwa model yang Anda pilih tidak menghasilkan kandungan beracun dalam jumlah besar. Untuk mempelajari lebih lanjut tentang algoritma detoksifikasi dan melihat bagaimana toksisitas dihitung, lihat algoritma detoksifikasi. GitHub

Bagaimana setiap metrik yang tersedia dihitung ketika diterapkan pada jenis tugas tanya jawab

Akurasi: Untuk metrik ini, nilai yang dihitung adalah skor F1. Skor F1 dihitung dengan membagi skor presisi (rasio prediksi yang benar untuk semua prediksi) dengan skor recall (rasio prediksi yang benar dengan jumlah total prediksi yang relevan). Skor F1 berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan kinerja yang lebih baik.
Kekokohan: Untuk metrik ini, nilai yang dihitung adalah persentase. Ini dihitung dengan mengambil (Delta F1/F1) x 100. Delta F1 adalah perbedaan Skor F1 antara prompt yang terganggu dan prompt asli dalam kumpulan data Anda. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis. Skor yang lebih rendah menunjukkan model yang dipilih lebih kuat.
Toksisitas: Untuk metrik ini, nilainya dihitung menggunakan toksisitas dari algoritma detoksifikasi. Nilai toksisitas yang rendah menunjukkan bahwa model yang Anda pilih tidak menghasilkan kandungan beracun dalam jumlah besar. Untuk mempelajari lebih lanjut tentang algoritma detoksifikasi dan melihat bagaimana toksisitas dihitung, lihat algoritma detoksifikasi. GitHub

Bagaimana setiap metrik yang tersedia dihitung saat diterapkan pada jenis tugas klasifikasi teks

Akurasi: Untuk metrik ini, nilai yang dihitung adalah akurasi. Akurasi adalah skor yang membandingkan kelas yang diprediksi dengan label kebenaran dasarnya. Akurasi yang lebih tinggi menunjukkan bahwa model Anda mengklasifikasikan teks dengan benar berdasarkan label kebenaran dasar yang disediakan.
Kekokohan: Untuk metrik ini, nilai yang dihitung adalah persentase. Ini dihitung dengan mengambil (skor akurasi klasifikasi delta/skor akurasi klasifikasi) x 100. Skor akurasi klasifikasi delta adalah perbedaan antara skor akurasi klasifikasi dari prompt yang terganggu dan prompt input asli. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis. Skor yang lebih rendah menunjukkan model yang dipilih lebih kuat.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Laporan dan metrik untuk evaluasi model

Tinjau pekerjaan evaluasi model manusia