Pertanyaan dan jawaban untuk evaluasi model di Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pertanyaan dan jawaban untuk evaluasi model di Amazon Bedrock

Pertanyaan dan jawaban digunakan untuk tugas-tugas termasuk menghasilkan respons meja bantuan otomatis, pengambilan informasi, dan e-learning. Jika teks yang digunakan untuk melatih model pondasi berisi masalah termasuk data yang tidak lengkap atau tidak akurat, sarkasme atau ironi, kualitas tanggapan dapat memburuk.

penting

Untuk pertanyaan dan jawaban, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut direkomendasikan untuk digunakan dengan tipe tugas pertanyaan dang jawaban.

BoolQ

BoolQ adalah kumpulan data yang terdiri dari pasangan tanya jawab ya/tidak. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.

Pertanyaan Alami

Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan ke Google pencarian.

TriviaQA

TriviaQA adalah kumpulan data yang berisi lebih dari 650K. question-answer-evidence-triples Dataset ini digunakan dalam tugas tanya jawab.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan. Untuk berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau yang didukung AWS SDKmenggunakan nama parameter di kolom, Built-in dataset () API.

Set data bawaan yang tersedia untuk jenis tugas tanya jawab di Amazon Bedrock
Jenis tugas Metrik Kumpulan data bawaan (konsol) Kumpulan data bawaan () API Metrik yang dihitung
Pertanyaan dan jawaban Akurasi BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Kekokohan BoolQ Builtin.BoolQ

F1 dan DeltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Toksisitas BoolQ Builtin.BoolQ Toksisitas
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock