Memulai dengan evaluasi model

Model bahasa besar (LLM) adalah model pembelajaran mesin yang dapat menganalisis dan menghasilkan teks bahasa alami. Jika Anda ingin mengevaluasiLLM, SageMaker berikan tiga opsi berikut yang dapat Anda pilih:

Siapkan evaluasi manual untuk tenaga kerja manusia menggunakan Studio.
Evaluasi model Anda dengan algoritme menggunakan Studio.
Evaluasi model Anda secara otomatis dengan alur kerja yang disesuaikan menggunakan fmeval perpustakaan.

Anda dapat menggunakan algoritme untuk mengevaluasi model pondasi Anda secara otomatis atau meminta tim kerja manusia untuk mengevaluasi respons model.

Tim kerja manusia dapat mengevaluasi dan membandingkan hingga dua model secara bersamaan menggunakan metrik yang menunjukkan preferensi untuk satu respons di atas yang lain. Alur kerja, metrik, dan instruksi untuk evaluasi manusia dapat disesuaikan agar sesuai dengan kasus penggunaan tertentu. Manusia juga dapat memberikan evaluasi yang lebih halus daripada evaluasi algoritmik.

Anda juga dapat menggunakan algoritme untuk mengevaluasi tolok ukur LLM penggunaan Anda untuk menilai respons model Anda dengan cepat di Studio. Studio menyediakan alur kerja terpandu untuk mengevaluasi tanggapan dari JumpStart model menggunakan metrik yang telah ditentukan sebelumnya. Metrik ini khusus untuk tugas AI generatif. Alur terpandu ini menggunakan kumpulan data bawaan atau kustom untuk mengevaluasi Anda. LLM

Atau, Anda dapat menggunakan fmeval pustaka untuk membuat alur kerja yang lebih disesuaikan menggunakan evaluasi otomatis daripada yang tersedia di Studio. Penggunaan Python kode dan fmeval pustaka, Anda dapat mengevaluasi berbasis teks apa punLLM, termasuk model yang dibuat di luar. JumpStart

Topik berikut memberikan gambaran umum tentang evaluasi model dasar, ringkasan alur kerja Evaluasi Model Yayasan (FMEval) otomatis dan manusia, cara menjalankannya, dan cara melihat laporan analisis hasil Anda. Topik evaluasi otomatis menunjukkan cara mengonfigurasi dan menjalankan evaluasi awal dan yang disesuaikan.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Evaluasi model

Kumpulan data yang cepat dan dimensi evaluasi