Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Hasil evaluasi model
Metrik akurasi untuk LLMs adalah nilai numerik yang dimaksudkan untuk mewakili seberapa baik model merespons prompt Anda. Namun, terkadang nilai numerik tidak dapat menangkap seluk-beluk bahasa manusia. Kami melaporkan metrik akurasi yang berbeda untuk setiap tugas yang dirancang untuk mengukur kualitas jawaban di sepanjang aspek yang berbeda. Misalnya, mengingat mengukur apakah jawaban yang benar disertakan dalam keluaran model sementara presisi memberikan indikasi seberapa bertele-tele jawaban model. Beberapa metrik harus dibandingkan dan, jika memungkinkan, dikombinasikan dengan evaluasi kualitatif (yaitu, menyelidiki sampel secara manual) untuk menentukan apakah model Anda memberikan output yang diinginkan.
contoh Akurasi untuk jenis tugas Pertanyaan dan jawaban
Contoh ini menjelaskan bagaimana metrik akurasi dapat dipahami dalam konteks respons model. seberapa bertele-tele jawaban model.
Contoh ini didasarkan dari huggingface-llm-falcon-40b-bf16
model.
Prompt: When was the movie Inception released? Target output: July 16, 2010 Model output: \nInception was released on July 16, 2010.\nWhen was the movie Inception released?\nInception was released on July 16, 2010.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who“
Untuk menilai respons ini, mari kita uraikan berdasarkan setiap metrik yang dihitung.
-
recall_over_words
adalah 1.0 karena model mengembalikan output yang benar. -
precision_over_words
rendah (0,11) karena responsnya sangat bertele-tele dibandingkan dengan output Target. -
f1_score
yang menggabungkan presesi dan penarikan rendah (0,19). -
Skor keluaran model 0,0 untuk semua metrik akurasi lainnya.
Dari metrik yang dihitung ini kita dapat menyimpulkan bahwa ya output target dikembalikan dalam respons, tetapi responsnya secara keseluruhan terhadap verbose.
Anda juga dapat melihat skor yang ditunjukkan dalam plot radar berikut.

contoh Akurasi untuk jenis tugas tanya jawab
Contoh ini menunjukkan model yang berjuang untuk mengembalikan output target
Prompt: Who are some influential people in the field of technology? Target output: Influential people in technology include Bill Gates, Steve Jobs, Mark Zuckerberg, Elon Musk, and others. Model output: I would say that the most influential person in the field of technology is Steve Jobs. He has changed the way we use technology.\nSteve Jobs is a good one. I would also say Bill Gates. He has changed the way we use computers.
Output model tidak sama persis dengan output target, oleh karena itu keduanya exact_match_score
dan quasi_exact_match_score
mengevaluasi ke 0. Karena output model berisi sekitar setengah dari kata-kata dari output target, maka recall_over_words
adalah 0,47. Output target berisi sekitar seperempat kata dalam output model, oleh karena itu precision_over_words
adalah 0,27. Akibatnya, rata-rata geometris dari keduanya seperti yang dilaporkan dalam f1_score
adalah 0,34. Skor ditampilkan dalam plot radar berikut.

contoh Penilaian akurasi untuk pasangan pertanyaan dan jawaban tidak benar
Dalam contoh ini model merespons dengan output yang tidak mengandung output target.
Prompt: Who is the greatest musician of all time? Target output: Michael Jackson Model output: "\nWho is the greatest musician of all time?\nThe 50 Greatest Musicians of All Time\n- 1. Bob Dylan.\n- 2. The Beatles.\n- 3. Jimi Hendrix.\n- 4. Aretha Franklin.\n- 5. Elvis Presley.\n- 6. Marvin Gaye.\n- 7. Ray Charles.\n- 8. John Lennon.\nWho is the most famous musician in the world?\nThe 10 Most Famous Musicians in the World\n- Beyonc\u00e9.\n- Taylor Swift.\n- Drake.\n- Ed Sheeran.\n- Rihanna.\n- Justin Bieber.\n- Lady Gaga.\n- The Weeknd.\nWho is the most famous singer in the world 2020?\nTop 10 Most Popular Singers in the World 2020\n- Justin Bieber.\n- Ed Sheeran.\n- Drake.\n- Rihanna.\n- Ariana Grande.\n- Taylor Swift.\n- Beyonce.\n- Bruno Mars.\nWho is the most famous singer in the world 2019?\nTop 10 Most Popular Singers in the World 2019\n- Justin Bieber.\n- Ed Sheeran“
Dalam contoh ini, pertanyaan dan output target keduanya subjektif. Model merespons dengan mengembalikan pertanyaan yang mirip dengan prompt, dan jawaban mereka. Karena model tidak mengembalikan jawaban subjektif yang diberikan, output ini mendapat skor 0,0 pada semua metrik akurasi, seperti yang ditunjukkan di bawah ini. Mengingat sifat subjektif dari pertanyaan ini, evaluasi manusia tambahan direkomendasikan.