Hasil evaluasi model

Mode fokus

Hasil evaluasi model - Amazon SageMaker AI

Metrik akurasi untuk LLMs adalah nilai numerik yang dimaksudkan untuk mewakili seberapa baik model merespons prompt Anda. Namun, terkadang nilai numerik tidak dapat menangkap seluk-beluk bahasa manusia. Kami melaporkan metrik akurasi yang berbeda untuk setiap tugas yang dirancang untuk mengukur kualitas jawaban di sepanjang aspek yang berbeda. Misalnya, mengingat mengukur apakah jawaban yang benar disertakan dalam keluaran model sementara presisi memberikan indikasi seberapa bertele-tele jawaban model. Beberapa metrik harus dibandingkan dan, jika memungkinkan, dikombinasikan dengan evaluasi kualitatif (yaitu, menyelidiki sampel secara manual) untuk menentukan apakah model Anda memberikan output yang diinginkan.

contoh Akurasi untuk jenis tugas Pertanyaan dan jawaban

Contoh ini menjelaskan bagaimana metrik akurasi dapat dipahami dalam konteks respons model. seberapa bertele-tele jawaban model.

Contoh ini didasarkan dari huggingface-llm-falcon-40b-bf16 model.


Prompt: When was the movie Inception released?
Target output: July 16, 2010
Model output: \nInception was released on July 16, 2010.\nWhen was the movie Inception released?\nInception was released on July 16, 2010.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who“

Untuk menilai respons ini, mari kita uraikan berdasarkan setiap metrik yang dihitung.

recall_over_wordsadalah 1.0 karena model mengembalikan output yang benar.
precision_over_wordsrendah (0,11) karena responsnya sangat bertele-tele dibandingkan dengan output Target.
f1_scoreyang menggabungkan presesi dan penarikan rendah (0,19).
Skor keluaran model 0,0 untuk semua metrik akurasi lainnya.

Dari metrik yang dihitung ini kita dapat menyimpulkan bahwa ya output target dikembalikan dalam respons, tetapi responsnya secara keseluruhan terhadap verbose.

Anda juga dapat melihat skor yang ditunjukkan dalam plot radar berikut.

Gambar yang menunjukkan plot radar untuk setiap metrik pengembalian.

contoh Akurasi untuk jenis tugas tanya jawab

Contoh ini menunjukkan model yang berjuang untuk mengembalikan output target


Prompt: Who are some influential people in the field of technology?
                Target output: Influential people in technology include Bill Gates, Steve Jobs, Mark Zuckerberg, Elon Musk, and others.
                Model output: I would say that the most influential person in the field of technology is Steve Jobs. He has changed the way we use technology.\nSteve Jobs is a good one. I would also say Bill Gates. He has changed the way we use computers.

Output model tidak sama persis dengan output target, oleh karena itu keduanya exact_match_score dan quasi_exact_match_score mengevaluasi ke 0. Karena output model berisi sekitar setengah dari kata-kata dari output target, maka recall_over_words adalah 0,47. Output target berisi sekitar seperempat kata dalam output model, oleh karena itu precision_over_words adalah 0,27. Akibatnya, rata-rata geometris dari keduanya seperti yang dilaporkan dalam f1_score adalah 0,34. Skor ditampilkan dalam plot radar berikut.

contoh Penilaian akurasi untuk pasangan pertanyaan dan jawaban tidak benar

Dalam contoh ini model merespons dengan output yang tidak mengandung output target.


Prompt: Who is the greatest musician of all time?
                Target output: Michael Jackson
                Model output: "\nWho is the greatest musician of all time?\nThe 50 Greatest Musicians of All Time\n- 1. Bob Dylan.\n- 2. The Beatles.\n- 3. Jimi Hendrix.\n- 4. Aretha Franklin.\n- 5. Elvis Presley.\n- 6. Marvin Gaye.\n- 7. Ray Charles.\n- 8. John Lennon.\nWho is the most famous musician in the world?\nThe 10 Most Famous Musicians in the World\n- Beyonc\u00e9.\n- Taylor Swift.\n- Drake.\n- Ed Sheeran.\n- Rihanna.\n- Justin Bieber.\n- Lady Gaga.\n- The Weeknd.\nWho is the most famous singer in the world 2020?\nTop 10 Most Popular Singers in the World 2020\n- Justin Bieber.\n- Ed Sheeran.\n- Drake.\n- Rihanna.\n- Ariana Grande.\n- Taylor Swift.\n- Beyonce.\n- Bruno Mars.\nWho is the most famous singer in the world 2019?\nTop 10 Most Popular Singers in the World 2019\n- Justin Bieber.\n- Ed Sheeran“

Dalam contoh ini, pertanyaan dan output target keduanya subjektif. Model merespons dengan mengembalikan pertanyaan yang mirip dengan prompt, dan jawaban mereka. Karena model tidak mengembalikan jawaban subjektif yang diberikan, output ini mendapat skor 0,0 pada semua metrik akurasi, seperti yang ditunjukkan di bawah ini. Mengingat sifat subjektif dari pertanyaan ini, evaluasi manusia tambahan direkomendasikan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Gunakan fmeval pustaka untuk menjalankan evaluasi otomatis

Hasil Job

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Hasil evaluasi model

contoh Akurasi untuk jenis tugas Pertanyaan dan jawaban

contoh Akurasi untuk jenis tugas tanya jawab

contoh Penilaian akurasi untuk pasangan pertanyaan dan jawaban tidak benar

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?

Gambar yang menunjukkan plot radar untuk setiap metrik pengembalian.

Gambar yang menunjukkan plot radar untuk setiap metrik pengembalian.