Tinjau metrik untuk pekerjaan evaluasi model otomatis di Amazon Bedrock (konsol) - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tinjau metrik untuk pekerjaan evaluasi model otomatis di Amazon Bedrock (konsol)

Anda dapat meninjau metrik yang disajikan dalam laporan untuk pekerjaan evaluasi model otomatis menggunakan konsol Amazon Bedrock.

Dalam kartu laporan evaluasi model Anda, Anda akan melihat jumlah total permintaan dalam kumpulan data yang Anda berikan atau pilih, dan berapa banyak dari permintaan tersebut yang menerima tanggapan. Jika jumlah tanggapan kurang dari jumlah permintaan input, pastikan untuk memeriksa file keluaran data di bucket Amazon S3 Anda. Ada kemungkinan bahwa prompt menyebabkan kesalahan dengan model dan tidak ada inferensi yang diambil. Hanya tanggapan dari model yang akan digunakan dalam perhitungan metrik.

Gunakan prosedur berikut untuk meninjau pekerjaan evaluasi model otomatis di konsol Amazon Bedrock.

  1. Buka konsol Amazon Bedrock.

  2. Dari panel navigasi, pilih Evaluasi model.

  3. Selanjutnya, dalam tabel Evaluasi model temukan nama pekerjaan evaluasi model otomatis yang ingin Anda tinjau. Kemudian, pilihlah.

Dalam semua metrik terkait ketahanan semantik, Amazon Bedrock mengganggu meminta dengan cara berikut: mengonversi teks ke semua huruf kecil, kesalahan ketik keyboard, mengonversi angka menjadi kata, perubahan acak ke huruf besar, dan penambahan/penghapusan spasi acak.

Setelah Anda membuka laporan evaluasi model, Anda dapat melihat metrik yang diringkas, dan ringkasan konfigurasi Job dari pekerjaan tersebut.

Untuk setiap metrik dan kumpulan data prompt yang ditentukan saat pekerjaan dibuat, Anda melihat kartu, dan nilai untuk setiap kumpulan data yang ditentukan untuk metrik tersebut. Cara nilai ini dihitung berubah berdasarkan jenis tugas dan metrik yang Anda pilih.

Bagaimana setiap metrik yang tersedia dihitung saat diterapkan pada jenis tugas pembuatan teks umum
  • Akurasi: Untuk metrik ini, nilainya dihitung menggunakan skor pengetahuan dunia nyata (RWKskor). RWKSkor memeriksa kemampuan model untuk menyandikan pengetahuan faktual tentang dunia nyata. RWKSkor tinggi menunjukkan bahwa model Anda akurat.

  • Kekokohan: Untuk metrik ini, nilainya dihitung menggunakan ketahanan semantik. Yang dihitung menggunakan tingkat kesalahan kata. Kekokohan semantik mengukur seberapa besar output model berubah sebagai akibat dari gangguan pengawetan semantik kecil, dalam input. Kekokohan terhadap gangguan semacam itu adalah properti yang diinginkan, dan dengan demikian skor ketahanan semantik yang rendah menunjukkan model Anda berkinerja baik.

    Jenis gangguan yang akan kami pertimbangkan adalah: mengonversi teks ke semua huruf kecil, kesalahan ketik keyboard, mengonversi angka menjadi kata, perubahan acak ke huruf besar dan penambahan/penghapusan spasi acak. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis.

  • Toksisitas: Untuk metrik ini, nilainya dihitung menggunakan toksisitas dari algoritma detoksifikasi. Nilai toksisitas yang rendah menunjukkan bahwa model yang Anda pilih tidak menghasilkan kandungan beracun dalam jumlah besar. Untuk mempelajari lebih lanjut tentang algoritma detoksifikasi dan melihat bagaimana toksisitas dihitung, lihat algoritma detoksifikasi pada. GitHub

Bagaimana setiap metrik yang tersedia dihitung saat diterapkan pada jenis tugas ringkasan teks
  • Akurasi: Untuk metrik ini, nilainya dihitung menggunakan BERT Skor. BERTSkor dihitung menggunakan penyematan kontekstual yang telah dilatih sebelumnya dari model. BERT Ini cocok dengan kata-kata dalam kandidat dan kalimat referensi dengan kesamaan kosinus.

  • Kekokohan: Untuk metrik ini, nilai yang dihitung adalah persentase. Itu dihitung dengan mengambil (DeltaBERTScore/BERTScore) x 100. Delta BERTScore adalah perbedaan BERT Skor antara prompt yang terganggu dan prompt asli dalam kumpulan data Anda. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis. Skor yang lebih rendah menunjukkan model yang dipilih lebih kuat.

  • Toksisitas: Untuk metrik ini, nilainya dihitung menggunakan toksisitas dari algoritma detoksifikasi. Nilai toksisitas yang rendah menunjukkan bahwa model yang Anda pilih tidak menghasilkan kandungan beracun dalam jumlah besar. Untuk mempelajari lebih lanjut tentang algoritma detoksifikasi dan melihat bagaimana toksisitas dihitung, lihat algoritma detoksifikasi pada. GitHub

Bagaimana setiap metrik yang tersedia dihitung ketika diterapkan pada jenis tugas tanya jawab
  • Akurasi: Untuk metrik ini, nilai yang dihitung adalah skor F1. Skor F1 dihitung dengan membagi skor presisi (rasio prediksi yang benar untuk semua prediksi) dengan skor recall (rasio prediksi yang benar dengan jumlah total prediksi yang relevan). Skor F1 berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan kinerja yang lebih baik.

  • Kekokohan: Untuk metrik ini, nilai yang dihitung adalah persentase. Ini dihitung dengan mengambil (Delta F1/F1) x 100. Delta F1 adalah perbedaan Skor F1 antara prompt yang terganggu dan prompt asli dalam kumpulan data Anda. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis. Skor yang lebih rendah menunjukkan model yang dipilih lebih kuat.

  • Toksisitas: Untuk metrik ini, nilainya dihitung menggunakan toksisitas dari algoritma detoksifikasi. Nilai toksisitas yang rendah menunjukkan bahwa model yang Anda pilih tidak menghasilkan kandungan beracun dalam jumlah besar. Untuk mempelajari lebih lanjut tentang algoritma detoksifikasi dan melihat bagaimana toksisitas dihitung, lihat algoritma detoksifikasi pada. GitHub

Bagaimana setiap metrik yang tersedia dihitung saat diterapkan pada jenis tugas klasifikasi teks
  • Akurasi: Untuk metrik ini, nilai yang dihitung adalah akurasi. Akurasi adalah skor yang membandingkan kelas yang diprediksi dengan label kebenaran dasarnya. Akurasi yang lebih tinggi menunjukkan bahwa model Anda mengklasifikasikan teks dengan benar berdasarkan label kebenaran dasar yang disediakan.

  • Kekokohan: Untuk metrik ini, nilai yang dihitung adalah persentase. Ini dihitung dengan mengambil (skor akurasi klasifikasi delta/skor akurasi klasifikasi) x 100. Skor akurasi klasifikasi delta adalah perbedaan antara skor akurasi klasifikasi dari prompt yang terganggu dan prompt input asli. Setiap prompt dalam kumpulan data Anda terganggu sekitar 5 kali. Kemudian, setiap respons yang terganggu dikirim untuk inferensi, dan digunakan untuk menghitung skor ketahanan secara otomatis. Skor yang lebih rendah menunjukkan model yang dipilih lebih kuat.