Memulai dengan evaluasi model - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memulai dengan evaluasi model

Model bahasa besar (LLM) adalah model pembelajaran mesin yang dapat menganalisis dan menghasilkan teks bahasa alami. Jika Anda ingin mengevaluasiLLM, SageMaker berikan tiga opsi berikut yang dapat Anda pilih:

  • Siapkan evaluasi manual untuk tenaga kerja manusia menggunakan Studio.

  • Evaluasi model Anda dengan algoritme menggunakan Studio.

  • Evaluasi model Anda secara otomatis dengan alur kerja yang disesuaikan menggunakan fmeval perpustakaan.

Anda dapat menggunakan algoritme untuk mengevaluasi model pondasi Anda secara otomatis atau meminta tim kerja manusia untuk mengevaluasi respons model.

Tim kerja manusia dapat mengevaluasi dan membandingkan hingga dua model secara bersamaan menggunakan metrik yang menunjukkan preferensi untuk satu respons di atas yang lain. Alur kerja, metrik, dan instruksi untuk evaluasi manusia dapat disesuaikan agar sesuai dengan kasus penggunaan tertentu. Manusia juga dapat memberikan evaluasi yang lebih halus daripada evaluasi algoritmik.

Anda juga dapat menggunakan algoritme untuk mengevaluasi tolok ukur LLM penggunaan Anda untuk menilai respons model Anda dengan cepat di Studio. Studio menyediakan alur kerja terpandu untuk mengevaluasi tanggapan dari JumpStart model menggunakan metrik yang telah ditentukan sebelumnya. Metrik ini khusus untuk tugas AI generatif. Alur terpandu ini menggunakan kumpulan data bawaan atau kustom untuk mengevaluasi Anda. LLM

Atau, Anda dapat menggunakan fmeval pustaka untuk membuat alur kerja yang lebih disesuaikan menggunakan evaluasi otomatis daripada yang tersedia di Studio. Penggunaan Python kode dan fmeval pustaka, Anda dapat mengevaluasi berbasis teks apa punLLM, termasuk model yang dibuat di luar. JumpStart

Topik berikut memberikan gambaran umum tentang evaluasi model dasar, ringkasan alur kerja Evaluasi Model Yayasan (FMEval) otomatis dan manusia, cara menjalankannya, dan cara melihat laporan analisis hasil Anda. Topik evaluasi otomatis menunjukkan cara mengonfigurasi dan menjalankan evaluasi awal dan yang disesuaikan.

Topik