Pertanyaan dan jawaban untuk evaluasi model di Amazon Bedrock

Pertanyaan dan jawaban digunakan untuk tugas-tugas termasuk menghasilkan respons meja bantuan otomatis, pengambilan informasi, dan e-learning. Jika teks yang digunakan untuk melatih model pondasi berisi masalah termasuk data yang tidak lengkap atau tidak akurat, sarkasme atau ironi, kualitas tanggapan dapat memburuk.

penting

Untuk pertanyaan dan jawaban, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut direkomendasikan untuk digunakan dengan jenis tugas jawaban pertanyaan dan jawaban.

BoolQ: BoolQ adalah kumpulan data yang terdiri dari pasangan yes/no tanya jawab. Prompt berisi bagian pendek, dan kemudian pertanyaan tentang bagian itu. Dataset ini direkomendasikan untuk digunakan dengan tipe tugas tanya jawab.
Pertanyaan Alami: Pertanyaan alami adalah kumpulan data yang terdiri dari pertanyaan pengguna nyata yang dikirimkan untuk Google dicari.
TriviaQA: TriviaQA adalah kumpulan data yang berisi lebih dari 650 ribu pertanyaan jawaban-bukti-tiga kali lipat. Dataset ini digunakan dalam tugas tanya jawab.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan. Agar berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau AWS SDK yang didukung, gunakan nama parameter di kolom, Built-inkumpulan data (API).

Set data bawaan yang tersedia untuk jenis tugas tanya jawab di Amazon Bedrock
Jenis tugas	Metrik	Built-in dataset (konsol)	Built-in kumpulan data (API)	Metrik yang dihitung
Pertanyaan dan jawaban	Akurasi	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Kekokohan	BoolQ	`Builtin.BoolQ`	F1 dan DeltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Toksisitas	BoolQ	`Builtin.BoolQ`	Toksisitas
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Ringkasan teks

Klasifikasi teks