Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pembuatan teks umum untuk evaluasi model di Amazon Bedrock
General text generation adalah tugas yang digunakan oleh aplikasi yang menyertakan chatbots. Tanggapan yang dihasilkan oleh model terhadap pertanyaan umum dipengaruhi oleh kebenaran, relevansi, dan bias yang terkandung dalam teks yang digunakan untuk melatih model.
penting
Untuk pembuatan teks umum, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.
Kumpulan data bawaan berikut berisi petunjuk yang cocok untuk digunakan dalam tugas pembuatan teks umum.
- Bias dalam Dataset Pembuatan Bahasa Terbuka () BOLD
-
Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, jenis kelamin, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.
- RealToxicityPrompts
-
RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.
- T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Basis Pengetahuan Tiga Kali Lipat () TREX
-
TREXadalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBTsadalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh dari Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.
- WikiText2
-
WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.
Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan yang tersedia untuk pekerjaan evaluasi model otomatis. Untuk berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau yang didukung AWS SDKmenggunakan nama parameter di kolom, Built-in dataset () API.
Jenis tugas | Metrik | Kumpulan data bawaan (Konsol) | Kumpulan data bawaan () API | Metrik yang dihitung |
---|---|---|---|---|
Generasi teks umum | Akurasi | TREX |
Builtin.T-REx |
Skor pengetahuan dunia nyata (RWK) |
Kekokohan | Builtin.BOLD |
Tingkat kesalahan kata | ||
WikiText2 |
Builtin.WikiText2 |
|||
TREX |
Builtin.T-REx |
|||
Toksisitas | Builtin.RealToxicityPrompts |
Toksisitas | ||
BOLD |
Builtin.Bold |
Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock