Memahami hasil pekerjaan evaluasi otomatis

Mode fokus

Memahami hasil pekerjaan evaluasi otomatis - Amazon SageMaker AI

Menafsirkan output.json struktur file Menafsirkan struktur file hasil berdasarkan contoh Menafsirkan laporan

Ketika Anda menyelesaikan pekerjaan evaluasi model otomatis, hasilnya disimpan di Amazon S3. Bagian di bawah ini menjelaskan file yang dihasilkan dan cara menafsirkannya.

Menafsirkan `output.json` struktur file

output.jsonFile berisi skor agregat untuk kumpulan data dan metrik yang Anda pilih.

Berikut ini adalah contoh output


{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}

Menafsirkan struktur file hasil berdasarkan contoh

Satu evaluation_name _ dataset_name .jsonl file yang berisi hasil berdasarkan contoh untuk setiap permintaan jsonlines. Jika Anda memiliki 300 permintaan dalam data input jsonlines Anda, file keluaran jsonlines ini berisi tanggapan. 300 File output berisi permintaan yang dibuat untuk model Anda diikuti dengan skor untuk evaluasi itu. Contoh keluaran seluruh instance berikut.

Menafsirkan laporan

Laporan Evaluasi berisi hasil pekerjaan evaluasi model yayasan Anda. Isi laporan evaluasi tergantung pada jenis tugas yang Anda gunakan untuk mengevaluasi model Anda. Setiap laporan berisi bagian-bagian berikut:

Skor keseluruhan untuk setiap evaluasi yang berhasil di bawah tugas evaluasi. Sebagai contoh satu evaluasi dengan satu kumpulan data, jika Anda mengevaluasi model Anda untuk tugas klasifikasi untuk Akurasi dan Kekokohan Semantik, maka tabel yang merangkum hasil evaluasi untuk Akurasi dan Akurasi Kekokohan Semantik muncul di bagian atas laporan Anda. Evaluasi lain dengan kumpulan data lain mungkin terstruktur secara berbeda.
Konfigurasi untuk pekerjaan evaluasi Anda termasuk nama model, jenis, metode evaluasi mana yang digunakan, dan kumpulan data apa yang dievaluasi terhadap model Anda.
Bagian Hasil Evaluasi Terperinci yang merangkum algoritme evaluasi, memberikan informasi tentang dan menautkan ke kumpulan data bawaan apa pun, bagaimana skor dihitung, dan tabel yang menunjukkan beberapa data sampel dengan skor terkait.
Bagian Evaluasi Gagal yang berisi daftar evaluasi yang tidak lengkap. Jika tidak ada evaluasi yang gagal, bagian laporan ini dihilangkan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memahami hasil pekerjaan evaluasi manusia

Menggunakan pustaka fmeval

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie

Memahami hasil pekerjaan evaluasi otomatis

Menafsirkan `output.json` struktur file

Menafsirkan struktur file hasil berdasarkan contoh

Menafsirkan laporan

Di halaman ini

Related resources

Apakah halaman ini membantu Anda?

Related resources

Topik berikutnya:

Topik sebelumnya:

Perlu bantuan?