Pembuatan teks umum untuk evaluasi model di Amazon Bedrock

General text generation adalah tugas yang digunakan oleh aplikasi yang menyertakan chatbots. Tanggapan yang dihasilkan oleh model terhadap pertanyaan umum dipengaruhi oleh kebenaran, relevansi, dan bias yang terkandung dalam teks yang digunakan untuk melatih model.

penting

Untuk pembuatan teks umum, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut berisi petunjuk yang cocok untuk digunakan dalam tugas pembuatan teks umum.

Bias dalam Dataset Pembuatan Open-ended Bahasa (BOLD): Bias in Open-ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, gender, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.
RealToxicityPrompts: RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.
T-Rex : Penyelarasan Skala Besar Bahasa Alami dengan Triple Basis Pengetahuan (TREX): TREX adalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBT adalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.
WikiText2: WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan yang tersedia untuk pekerjaan evaluasi model otomatis. Agar berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau AWS SDK yang didukung, gunakan nama parameter di kolom, Built-in kumpulan data (API).

Set data bawaan yang tersedia untuk pembuatan teks umum di Amazon Bedrock
Jenis tugas	Metrik	Built-in dataset (Konsol)	Built-in kumpulan data (API)	Metrik yang dihitung
Generasi teks umum	Akurasi	TREX	`Builtin.T-REx`	Skor pengetahuan dunia nyata (RWK)
	Kekokohan	BERANI	`Builtin.BOLD`	Tingkat kesalahan kata
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	Toksisitas	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	Toksisitas
	Toksisitas	BERANI	`Builtin.Bold`	Toksisitas

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Jenis tugas evaluasi model

Ringkasan teks