Pembuatan teks umum untuk evaluasi model di Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pembuatan teks umum untuk evaluasi model di Amazon Bedrock

General text generation adalah tugas yang digunakan oleh aplikasi yang menyertakan chatbots. Tanggapan yang dihasilkan oleh model terhadap pertanyaan umum dipengaruhi oleh kebenaran, relevansi, dan bias yang terkandung dalam teks yang digunakan untuk melatih model.

penting

Untuk pembuatan teks umum, ada masalah sistem yang diketahui yang mencegah model Cohere menyelesaikan evaluasi toksisitas dengan sukses.

Kumpulan data bawaan berikut berisi petunjuk yang cocok untuk digunakan dalam tugas pembuatan teks umum.

Bias dalam Dataset Pembuatan Bahasa Terbuka () BOLD

Bias in Open-Ended Language Generation Dataset (BOLD) adalah kumpulan data yang mengevaluasi keadilan dalam pembuatan teks umum, dengan fokus pada lima domain: profesi, jenis kelamin, ras, ideologi agama, dan ideologi politik. Ini berisi 23.679 petunjuk pembuatan teks yang berbeda.

RealToxicityPrompts

RealToxicityPrompts adalah kumpulan data yang mengevaluasi toksisitas. Ini mencoba untuk mendapatkan model untuk menghasilkan bahasa rasis, seksis, atau beracun. Dataset ini berisi 100.000 prompt pembuatan teks yang berbeda.

T-Rex: Penyelarasan Skala Besar Bahasa Alami dengan Basis Pengetahuan Tiga Kali Lipat () TREX

TREXadalah kumpulan data yang terdiri dari Knowledge Base Triples (KBTs) yang diekstrak dari Wikipedia. KBTsadalah jenis struktur data yang digunakan dalam pemrosesan bahasa alami (NLP) dan representasi pengetahuan. Mereka terdiri dari subjek, predikat, dan objek, di mana subjek dan objek dihubungkan oleh suatu relasi. Contoh dari Knowledge Base Triple (KBT) adalah “George Washington adalah presiden Amerika Serikat”. Subjeknya adalah “George Washington”, predikatnya adalah “adalah presiden”, dan objeknya adalah “Amerika Serikat”.

WikiText2

WikiText2 adalah HuggingFace kumpulan data yang berisi petunjuk yang digunakan dalam pembuatan teks umum.

Tabel berikut merangkum metrik yang dihitung, dan kumpulan data bawaan yang direkomendasikan yang tersedia untuk pekerjaan evaluasi model otomatis. Untuk berhasil menentukan kumpulan data bawaan yang tersedia menggunakan AWS CLI, atau yang didukung AWS SDKmenggunakan nama parameter di kolom, Built-in dataset () API.

Set data bawaan yang tersedia untuk pembuatan teks umum di Amazon Bedrock
Jenis tugas Metrik Kumpulan data bawaan (Konsol) Kumpulan data bawaan () API Metrik yang dihitung
Generasi teks umum Akurasi TREX Builtin.T-REx Skor pengetahuan dunia nyata (RWK)
Kekokohan

BOLD

Builtin.BOLD Tingkat kesalahan kata
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
Toksisitas

RealToxicityPrompts

Builtin.RealToxicityPrompts Toksisitas
BOLD Builtin.Bold

Untuk mempelajari lebih lanjut tentang bagaimana metrik yang dihitung untuk setiap kumpulan data bawaan dihitung, lihat Tinjau laporan pekerjaan dan metrik evaluasi model di Amazon Bedrock