Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Tinjau metrik untuk evaluasi basis pengetahuan yang menggunakan LLMs (konsol)
Anda dapat meninjau metrik yang disajikan dalam laporan untuk pekerjaan evaluasi basis pengetahuan menggunakan konsol Amazon Bedrock.
Evaluasi basis pengetahuan yang menggunakan Large Language Models (LLMs) menghitung metrik evaluasi untuk menilai kinerja seberapa baik basis pengetahuan mengambil informasi dan menghasilkan tanggapan.
Dalam kartu laporan evaluasi basis pengetahuan Anda, Anda akan melihat metrik dan grafik rincian metrik yang relevan dengan jenis evaluasi Anda baik pengambilan saja atau pengambilan dengan generasi respons. Metrik yang berbeda relevan dengan jenis evaluasi yang berbeda. Skor yang dihitung untuk setiap metrik adalah skor rata-rata untuk teks yang diambil atau respons yang dihasilkan di semua kueri pengguna dalam kumpulan data prompt Anda. Skor yang dihitung untuk setiap metrik adalah nilai antara 0 dan 1. Semakin dekat ke 1, semakin banyak karakteristik metrik yang muncul dalam teks atau tanggapan yang diambil. Grafik rincian untuk setiap metrik memplot histogram dan menghitung berapa banyak teks atau tanggapan yang diambil untuk kueri termasuk dalam setiap rentang skor.
Misalnya, Anda membuat pekerjaan evaluasi untuk mengevaluasi pengambilan dengan menghasilkan respons. Kartu laporan konsol menunjukkan skor yang dihitung untuk Kelengkapan dalam respons berada di 0,82. Skor Kelengkapan mengukur bagaimana tanggapan yang dihasilkan menjawab semua aspek pertanyaan pengguna. Ini dihitung sebagai skor rata-rata untuk tanggapan atas pertanyaan di semua permintaan dalam kumpulan data Anda. Grafik histogram untuk Kelengkapan menunjukkan bahwa sebagian besar respons (bilah tertinggi) berada di antara kisaran skor kelengkapan 0,7 hingga 0,8. Namun, basis pengetahuan juga mendapat skor tinggi untuk Stereotip, di mana pernyataan umum dibuat dalam tanggapan rata-rata 0,94. Basis pengetahuan dapat menghasilkan tanggapan yang cukup lengkap sebagian besar waktu, tetapi tanggapan tersebut mencakup sejumlah besar pernyataan umum tentang individu atau kelompok orang.
Kartu laporan untuk evaluasi basis pengetahuan yang menggunakan LLMs
Ikuti langkah-langkah untuk membuka kartu laporan di konsol Amazon Bedrock untuk pekerjaan evaluasi basis pengetahuan yang digunakanLLMs. Lihat informasi di bawah ini untuk setiap metrik yang relevan dengan jenis evaluasi pengambilan saja dan pengambilan dengan generasi respons.
-
Masuk ke AWS Management Console dan buka konsol Amazon Bedrock di https://console.aws.amazon.com/bedrock/
. -
Pilih Evaluasi dari panel navigasi, lalu pilih Evaluasi basis pengetahuan.
-
Pilih nama pekerjaan evaluasi basis pengetahuan Anda. Anda akan diarahkan ke kartu laporan, yang merupakan halaman utama evaluasi basis pengetahuan.
catatan
Untuk membuka rapor, status evaluasi basis pengetahuan Anda harus siap atau tersedia.
Metrik yang relevan untuk evaluasi jenis pengambilan saja
Ada metrik tertentu yang relevan untuk mengevaluasi kemampuan basis pengetahuan Anda untuk mengambil informasi yang sangat relevan.
Relevansi konteks
Metrik ini relevan dengan kualitas informasi yang diambil. Skor adalah skor rata-rata untuk potongan teks yang diambil di semua petunjuk dalam kumpulan data Anda. Relevansi konteks berarti potongan teks yang diambil relevan secara kontekstual dengan pertanyaan. Semakin tinggi skor, semakin relevan secara kontekstual informasi rata-rata. Semakin rendah skor, rata-rata informasi yang kurang relevan secara kontekstual.
Cakupan konteks (membutuhkan kebenaran dasar)
Metrik ini relevan dengan kualitas informasi yang diambil. Skor adalah skor rata-rata untuk potongan teks yang diambil di semua petunjuk dalam kumpulan data Anda. Cakupan konteks berarti potongan teks yang diambil mencakup semua informasi yang disediakan dalam teks kebenaran dasar. Semakin tinggi skor, semakin banyak cakupan konteks rata-rata. Semakin rendah skor, semakin sedikit cakupan konteks rata-rata.
Metrik yang relevan untuk pengambilan dengan evaluasi tipe generasi respons
Ada metrik tertentu yang relevan untuk mengevaluasi kemampuan basis pengetahuan Anda untuk menghasilkan respons yang berguna dan sesuai berdasarkan informasi yang diambil.
Kebenaran
Metrik ini relevan dengan kualitas respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Kebenaran berarti menjawab pertanyaan secara akurat. Semakin tinggi skor, semakin benar rata-rata respons yang dihasilkan. Semakin rendah skor, semakin kurang benar tanggapan yang dihasilkan rata-rata.
Kelengkapan
Metrik ini relevan dengan kualitas respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Kelengkapan berarti menjawab dan menyelesaikan semua aspek pertanyaan. Semakin tinggi skor, semakin lengkap tanggapan yang dihasilkan rata-rata. Semakin rendah skor, semakin sedikit tanggapan yang dihasilkan rata-rata.
Membantu
Metrik ini relevan dengan kualitas respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Helpfulness berarti tanggapan yang berguna secara holistik terhadap pertanyaan. Semakin tinggi skor, semakin membantu respons yang dihasilkan rata-rata. Semakin rendah skor, rata-rata respons yang dihasilkan kurang membantu.
Koherensi logis
Metrik ini relevan dengan kualitas respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Koherensi logis berarti tanggapan bebas dari kesenjangan logis, inkonsistensi atau kontradiksi. Semakin tinggi skor, semakin koheren rata-rata respons yang dihasilkan. Semakin rendah skor, rata-rata respons yang dihasilkan kurang koheren.
Kesetiaan
Metrik ini relevan dengan kualitas respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Kesetiaan berarti menghindari halusinasi dengan reseksi ke potongan teks yang diambil. Semakin tinggi skor, semakin setia tanggapan yang dihasilkan rata-rata. Semakin rendah skor, rata-rata respons yang dihasilkan kurang setia.
Bahaya
Metrik ini relevan dengan kesesuaian respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Kerusakan berarti membuat pernyataan kebencian, penghinaan, atau kekerasan. Semakin tinggi skor, semakin berbahaya rata-rata respons yang dihasilkan. Semakin rendah skor, semakin tidak berbahaya rata-rata respons yang dihasilkan.
Stereotip
Metrik ini relevan dengan kesesuaian respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Stereotip berarti membuat pernyataan umum tentang individu atau kelompok orang. Semakin tinggi skor, semakin banyak stereotip dalam respons yang dihasilkan rata-rata. Semakin rendah skor, semakin sedikit stereotip dalam respons yang dihasilkan rata-rata. Perhatikan bahwa kehadiran yang kuat dari stereotip yang menyanjung dan merendahkan akan menghasilkan skor tinggi.
Penolakan
Metrik ini relevan dengan kesesuaian respons yang dihasilkan. Skor adalah skor rata-rata untuk tanggapan di semua petunjuk dalam kumpulan data Anda. Penolakan berarti tanggapan mengelak terhadap pertanyaan. Semakin tinggi skor, semakin mengelak rata-rata respons yang dihasilkan. Semakin rendah skor, rata-rata respons yang dihasilkan kurang mengelak.