Apa itu evaluasi model pondasi? - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Apa itu evaluasi model pondasi?

FMEval dapat membantu Anda mengukur risiko model, seperti konten yang tidak akurat, beracun, atau bias. Mengevaluasi LLM Anda membantu Anda mematuhi pedoman internasional seputar AI generatif yang bertanggung jawab, seperti Standar Sistem Manajemen AI ISO 42001 dan Kerangka Manajemen Risiko AI NIST.

Bagian berikut memberikan gambaran luas tentang metode yang didukung untuk membuat evaluasi model, melihat hasil pekerjaan evaluasi model, dan menganalisis hasilnya.

Tugas evaluasi model

Dalam pekerjaan evaluasi model, tugas evaluasi adalah tugas yang Anda ingin model lakukan berdasarkan informasi dalam petunjuk Anda. Anda dapat memilih satu jenis tugas per pekerjaan evaluasi model

Jenis tugas yang didukung dalam pekerjaan evaluasi model
  • Generasi terbuka — Produksi respons manusia alami terhadap teks yang tidak memiliki struktur yang telah ditentukan sebelumnya.

  • Ringkasan teks — Pembuatan ringkasan ringkas dan ringkas sambil mempertahankan makna dan informasi kunci yang terkandung dalam teks yang lebih besar.

  • Menjawab pertanyaan — Generasi respons yang relevan dan akurat terhadap prompt.

  • Klasifikasi — Menetapkan kategori, seperti label atau skor ke teks, berdasarkan kontennya.

  • Kustom - Memungkinkan Anda menentukan dimensi evaluasi khusus untuk pekerjaan evaluasi model Anda.

Setiap jenis tugas memiliki metrik spesifik yang terkait dengannya yang dapat Anda gunakan dalam pekerjaan evaluasi model otomatis. Untuk mempelajari tentang metrik yang terkait dengan pekerjaan evaluasi model otomatis, dan pekerjaan evaluasi model yang menggunakan pekerja manusia, lihatMenggunakan kumpulan data yang cepat dan dimensi evaluasi yang tersedia dalam pekerjaan evaluasi model .

Memperbarui parameter inferensi

Parameter inferensi adalah cara untuk mempengaruhi output model tanpa harus melatih ulang atau menyempurnakan model.

Dalam pekerjaan evaluasi model otomatis, Anda dapat mengubah Temperature model, Top P, dan token baru Max.

Temperatur

Mengubah jumlah keacakan dalam respons model. Turunkan suhu default untuk mengurangi jumlah keacakan, dan tingkatkan untuk memiliki lebih banyak.

P Teratas

Selama inferensi, model menghasilkan teks dan memilih dari daftar kata untuk menempatkan kata berikutnya. Memperbarui Top P mengubah jumlah kata dalam daftar itu berdasarkan persentase. Penurunan Top P menghasilkan sampel yang lebih deterministik, sementara nilai yang lebih tinggi akan memungkinkan lebih banyak variabilitas dan kreativitas dalam teks yang dihasilkan.

Token baru maks

Mengubah panjang respons yang dapat diberikan model.

Anda dapat memperbarui parameter inferensi di Studio setelah menambahkan model ke pekerjaan evaluasi model Anda.

Pekerjaan evaluasi model otomatis

Pekerjaan evaluasi model otomatis menggunakan metrik berdasarkan tolok ukur untuk mengukur respons beracun, berbahaya, atau buruk terhadap pelanggan Anda. Respons model dinilai menggunakan kumpulan data bawaan khusus untuk tugas atau Anda dapat menentukan kumpulan data prompt kustom Anda sendiri.

Untuk membuat pekerjaan evaluasi model otomatis Anda dapat menggunakan Studio atau fmevalperpustakaan. Pekerjaan evaluasi model otomatis mendukung penggunaan model tunggal. Di Studio, Anda dapat menggunakan JumpStart model atau Anda dapat menggunakan JumpStart model yang sebelumnya Anda gunakan ke titik akhir.

Atau, Anda dapat menyebarkan fmeval pustaka ke dalam basis kode Anda sendiri, dan menyesuaikan pekerjaan evaluasi model untuk kasus penggunaan Anda sendiri.

Untuk lebih memahami hasil Anda, gunakan laporan yang dihasilkan. Laporan tersebut mencakup visualisasi dan contoh. Anda juga melihat hasil yang disimpan di bucket Amazon S3 yang ditentukan saat membuat pekerjaan. Untuk mempelajari lebih lanjut tentang struktur hasil, lihatMemahami hasil pekerjaan evaluasi otomatis.

Untuk menggunakan model yang tidak tersedia untuk umum JumpStart , Anda harus menggunakan fmeval pustaka untuk menjalankan pekerjaan evaluasi model otomatis. Untuk daftar JumpStart model, lihatModel pondasi yang tersedia.

Templat cepat

Untuk membantu memastikan bahwa JumpStart model yang Anda pilih berkinerja baik terhadap semua prompt, SageMaker Clarify secara otomatis menambah prompt input Anda ke dalam format yang paling sesuai untuk model dan dimensi Evaluasi yang Anda pilih. Untuk melihat templat prompt default yang disediakan Clarify, pilih template Prompt di kartu untuk dimensi evaluasi. Jika Anda memilih, misalnya, jenis tugas Ringkasan teks di UI, Klarifikasi secara default menampilkan kartu untuk masing-masing dimensi evaluasi terkait - dalam hal ini, Akurasi, Toksisitas, dan Kekokohan Semantik. Di kartu ini, Anda dapat mengonfigurasi kumpulan data dan templat prompt yang digunakan Clarify untuk mengukur dimensi evaluasi tersebut. Anda juga dapat menghapus dimensi apa pun yang tidak ingin Anda gunakan.

Templat prompt default

Clarify menyediakan pilihan kumpulan data yang dapat Anda gunakan untuk mengukur setiap dimensi evaluasi. Anda dapat memilih untuk menggunakan satu atau lebih dari kumpulan data ini, atau Anda dapat menyediakan kumpulan data kustom Anda sendiri. Jika Anda menggunakan kumpulan data yang disediakan oleh Clarify, Anda juga dapat menggunakan templat prompt yang disisipkan oleh Clarify sebagai default. Kami memperoleh petunjuk default ini dengan menganalisis format respons di setiap kumpulan data dan menentukan peningkatan kueri yang diperlukan untuk mencapai format respons yang sama.

Template prompt yang disediakan oleh Clarify juga tergantung pada model yang Anda pilih. Anda dapat memilih model yang disetel dengan baik untuk mengharapkan instruksi di lokasi spesifik dari prompt. Misalnya, memilih model meta-textgenerationneuron-llama-2-7b, tipe tugas Ringkasan Teks, dan Gigaword dataset, menunjukkan template prompt default sebagai berikut:

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

Memilih model obrolan llama meta-textgenerationneuron-llama-2-7b-f, di sisi lain, menunjukkan templat prompt default berikut:

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Template prompt khusus

Di kotak dialog template prompt, Anda dapat mengaktifkan atau menonaktifkan dukungan template prompt otomatis yang disediakan Clarify. SageMaker Jika Anda menonaktifkan template prompt otomatis, Clarify menyediakan prompt default (sebagai garis dasar di semua kumpulan data dalam dimensi evaluasi yang sama) yang dapat Anda modifikasi. Misalnya, jika templat prompt default menyertakan instruksi Ringkas berikut ini dalam satu kalimat, Anda dapat memodifikasinya untuk Meringkas berikut ini dalam waktu kurang dari 100 kata atau instruksi lain yang ingin Anda gunakan.

Juga, jika Anda memodifikasi prompt untuk dimensi evaluasi, prompt yang sama diterapkan ke semua kumpulan data menggunakan dimensi yang sama. Jadi, jika Anda memilih untuk menerapkan prompt Ringkas teks berikut dalam 17 kalimat ke kumpulan data Gigaword untuk mengukur toksisitas, instruksi yang sama ini digunakan untuk kumpulan data Government report untuk mengukur toksisitas. Jika Anda ingin menggunakan prompt yang berbeda untuk kumpulan data yang berbeda (menggunakan jenis tugas dan dimensi evaluasi yang sama), Anda dapat menggunakan paket python yang disediakan oleh. FMEval Untuk detailnya, lihat Sesuaikan alur kerja Anda menggunakan pustaka fmeval.

contoh Contoh template prompt yang diperbarui menggunakan template Prompt

Bayangkan skenario sederhana di mana Anda memiliki kumpulan data sederhana yang hanya terdiri dari dua petunjuk, dan Anda ingin mengevaluasinya menggunakan. meta-textgenerationneuron-llama-2-7b-f

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

Karena petunjuk Anda adalah pasangan tanya jawab, Anda memilih jenis tugas Menjawab Pertanyaan (T&J).

Dengan memilih template Prompt di Studio, Anda dapat melihat bagaimana SageMaker Clarify akan memformat prompt Anda agar sesuai dengan persyaratan meta-textgenerationneuron-llama-2-7b-f JumpStart model.

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Untuk model ini SageMaker Clarify akan melengkapi prompt Anda untuk memuat format prompt yang benar dengan menambahkan [INST] dan <<SYS>> tag. Ini juga akan menambah permintaan awal Anda dengan menambahkan Respond to the following question. Valid answers are "True" or "False". untuk membantu model merespons dengan lebih baik.

Teks yang disediakan SageMaker Clarify mungkin tidak cocok untuk kasus penggunaan Anda. Untuk mematikan templat prompt default, geser templat prompt default Dataset toggle ke Off.

Anda dapat mengedit template prompt agar selaras dengan kasus penggunaan Anda. Misalnya, Anda dapat meminta respons singkat alih-alih format jawaban Benar/Salah, seperti yang ditunjukkan pada baris berikut:

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Sekarang semua kumpulan data prompt bawaan atau kustom di bawah dimensi Evaluasi yang ditentukan akan menggunakan templat prompt yang Anda tentukan.

Pekerjaan evaluasi model yang menggunakan pekerja manusia

Anda juga dapat mempekerjakan pekerja manusia untuk mengevaluasi respons model Anda secara manual untuk dimensi yang lebih subjektif, seperti bantuan atau gaya. Untuk membuat pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda harus menggunakan Studio.

Dalam pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda dapat membandingkan respons hingga dua JumpStart model. Secara opsional, Anda juga dapat menentukan tanggapan dari model di luar. AWS Semua pekerjaan evaluasi model yang menggunakan pekerja manusia mengharuskan Anda membuat kumpulan data prompt khusus, dan menyimpannya di Amazon S3. Untuk mempelajari lebih lanjut tentang cara membuat data prompt kustom, lihatMembuat pekerjaan evaluasi model yang menggunakan pekerja manusia.

Di Studio, Anda dapat menentukan kriteria yang digunakan tenaga kerja manusia Anda untuk mengevaluasi tanggapan dari model. Anda juga dapat mendokumentasikan instruksi evaluasi menggunakan templat yang tersedia di Studio. Selanjutnya, Anda dapat membuat tim kerja di Studio. Tim kerja adalah orang-orang yang ingin Anda ikuti dalam pekerjaan evaluasi model Anda.