Gunakan kumpulan data prompt khusus untuk evaluasi model di Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Gunakan kumpulan data prompt khusus untuk evaluasi model di Amazon Bedrock

Anda dapat menggunakan kumpulan data prompt khusus dalam pekerjaan evaluasi model.

Kumpulan data prompt khusus harus disimpan di Amazon S3, dan gunakan format baris dan gunakan JSON ekstensi file. .jsonl Saat mengunggah kumpulan data ke Amazon S3, pastikan Anda memperbarui konfigurasi Cross Origin Resource Sharing CORS () di bucket S3. Untuk mempelajari lebih lanjut tentang CORS izin yang diperlukan, lihatIzin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3.

Persyaratan untuk kumpulan data prompt khusus yang digunakan dalam pekerjaan evaluasi model otomatis

Dalam pekerjaan evaluasi model otomatis, Anda dapat menggunakan kumpulan data prompt khusus untuk setiap metrik yang Anda pilih dalam pekerjaan evaluasi model. Kumpulan data khusus menggunakan format JSON baris (.jsonl), dan setiap baris harus menjadi objek yang validJSON. Mungkin ada hingga 1000 petunjuk dalam kumpulan data Anda per pekerjaan evaluasi otomatis.

Anda harus menggunakan kunci berikut dalam kumpulan data khusus.

  • prompt— diperlukan untuk menunjukkan masukan untuk tugas-tugas berikut:

    • Permintaan yang harus ditanggapi oleh model Anda, dalam pembuatan teks umum.

    • Pertanyaan yang harus dijawab model Anda dalam jenis tugas tanya jawab.

    • Teks yang harus diringkas oleh model Anda dalam tugas ringkasan teks.

    • Teks yang harus diklasifikasikan oleh model Anda dalam tugas klasifikasi.

  • referenceResponse— diperlukan untuk menunjukkan respons kebenaran dasar yang menjadi dasar model Anda dievaluasi untuk jenis tugas berikut:

    • Jawaban untuk semua petunjuk dalam tugas tanya jawab.

    • Jawaban untuk semua akurasi, dan evaluasi ketahanan.

  • category— (opsional) menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori.

Sebagai contoh, akurasi membutuhkan pertanyaan untuk diajukan dan jawaban untuk memeriksa respons model. Dalam contoh ini, gunakan kunci prompt dengan nilai yang terkandung dalam pertanyaan, dan kunci referenceResponse dengan nilai yang terkandung dalam jawaban sebagai berikut.

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }

Contoh sebelumnya adalah satu baris file input JSON baris yang akan dikirim ke model Anda sebagai permintaan inferensi. Model akan dipanggil untuk setiap catatan tersebut di dataset JSON baris Anda. Contoh input data berikut adalah untuk tugas jawaban pertanyaan yang menggunakan category kunci opsional untuk evaluasi.

{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Untuk mempelajari lebih lanjut tentang persyaratan format untuk pekerjaan evaluasi model yang menggunakan pekerja manusia, lihatPersyaratan untuk kumpulan data prompt khusus dalam pekerjaan evaluasi model yang menggunakan pekerja manusia.

Persyaratan untuk kumpulan data prompt khusus dalam pekerjaan evaluasi model yang menggunakan pekerja manusia

Dalam format JSON baris, setiap baris adalah JSON objek yang valid. Dataset yang cepat dapat memiliki maksimum 1000 petunjuk per pekerjaan evaluasi model.

Entri prompt yang valid harus berisi prompt kunci. Keduanya category dan referenceResponse bersifat opsional. Gunakan category kunci untuk memberi label prompt Anda dengan kategori tertentu yang dapat Anda gunakan untuk memfilter hasil saat meninjaunya di kartu laporan evaluasi model. Gunakan referenceResponse kunci untuk menentukan respons kebenaran dasar yang dapat dirujuk oleh pekerja Anda selama evaluasi.

Di UI pekerja, apa yang Anda tentukan prompt dan referenceResponse dapat dilihat oleh pekerja manusia Anda.

Berikut ini adalah contoh dataset kustom yang berisi 6 input dan menggunakan format JSON baris.

{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

Contoh berikut adalah entri tunggal diperluas untuk kejelasan

{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }