Memahami hasil pekerjaan evaluasi otomatis - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memahami hasil pekerjaan evaluasi otomatis

Ketika Anda menyelesaikan pekerjaan evaluasi model otomatis, hasilnya disimpan di Amazon S3. Bagian di bawah ini menjelaskan file yang dihasilkan dan cara menafsirkannya.

Menafsirkan output.json struktur file

output.jsonFile berisi skor agregat untuk kumpulan data dan metrik yang Anda pilih.

Berikut ini adalah contoh output

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Menafsirkan struktur file hasil berdasarkan contoh

Satuevaluation_name_dataset_name.jsonl yang berisi hasil instance-wise untuk setiap permintaan jsonlines. Jika Anda memiliki 300 permintaan dalam data input jsonlines Anda, file keluaran jsonlines ini berisi tanggapan. 300 File output berisi permintaan yang dibuat untuk model Anda diikuti dengan skor untuk evaluasi itu. Contoh keluaran seluruh instance berikut.

Menafsirkan laporan

Laporan Evaluasi berisi hasil pekerjaan evaluasi model yayasan Anda. Isi laporan evaluasi tergantung pada jenis tugas yang Anda gunakan untuk mengevaluasi model Anda. Setiap laporan berisi bagian-bagian berikut:

  1. Skor keseluruhan untuk setiap evaluasi yang berhasil di bawah tugas evaluasi. Sebagai contoh satu evaluasi dengan satu kumpulan data, jika Anda mengevaluasi model Anda untuk tugas klasifikasi untuk Akurasi dan Kekokohan Semantik, maka tabel yang merangkum hasil evaluasi untuk Akurasi dan Akurasi Kekokohan Semantik muncul di bagian atas laporan Anda. Evaluasi lain dengan kumpulan data lain mungkin terstruktur secara berbeda.

  2. Konfigurasi untuk pekerjaan evaluasi Anda termasuk nama model, jenis, metode evaluasi mana yang digunakan, dan kumpulan data apa yang dievaluasi terhadap model Anda.

  3. Bagian Hasil Evaluasi Terperinci yang merangkum algoritme evaluasi, memberikan informasi tentang dan menautkan ke kumpulan data bawaan apa pun, bagaimana skor dihitung, dan tabel yang menunjukkan beberapa data sampel dengan skor terkait.

  4. Bagian Evaluasi Gagal yang berisi daftar evaluasi yang tidak lengkap. Jika tidak ada evaluasi yang gagal, bagian laporan ini dihilangkan.