Buat pekerjaan evaluasi model otomatis di Studio - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat pekerjaan evaluasi model otomatis di Studio

Wizard yang tersedia di Studio memandu Anda dalam memilih model untuk dievaluasi, memilih jenis tugas, memilih metrik dan kumpulan data, serta mengonfigurasi sumber daya yang diperlukan. Topik berikut menunjukkan cara memformat kumpulan data input kustom opsional, mengatur lingkungan, dan membuat pekerjaan evaluasi model di Studio.

Jika Anda menggunakan kumpulan data bawaan untuk mengevaluasi model Anda di Studio, kumpulan data diformat dengan benar.. Untuk menggunakan dataset prompt kustom Anda sendiri, itu harus berupa jsonlines file, di mana setiap baris adalah JSON objek yang valid. Setiap JSON objek harus berisi satu prompt.

Untuk membantu memastikan bahwa JumpStart model yang Anda pilih berkinerja baik, SageMaker Clarify secara otomatis memformat semua kumpulan data prompt agar dalam format yang paling sesuai untuk dimensi Evaluasi Model yang Anda pilih. Untuk kumpulan data prompt bawaan, SageMaker Clarify juga akan menambah prompt Anda dengan teks instruksional tambahan. Untuk melihat bagaimana SageMaker Clarify akan memodifikasi petunjuknya, pilih templat prompt di bawah dimensi Evaluasi yang telah Anda tambahkan ke pekerjaan evaluasi model. Untuk melihat contoh bagaimana Anda dapat memodifikasi template prompt, lihat Contoh template Prompt.

Toggle memungkinkan Anda untuk mematikan atau mengaktifkan dukungan template prompt otomatis yang disediakan SageMaker Clarify untuk kumpulan data bawaan. Mematikan template prompt otomatis memungkinkan, Anda untuk menentukan template prompt kustom Anda sendiri yang akan diterapkan ke semua prompt dalam dataset Anda.

Untuk mempelajari kunci mana yang tersedia untuk kumpulan data kustom di UI, lihat daftar tugas berikut.

  • model_input— Diperlukan untuk menunjukkan input untuk tugas-tugas berikut.

    • Permintaan yang harus ditanggapi oleh model Anda dalam tugas generasi terbuka, toksisitas, dan akurasi.

    • Pertanyaan yang harus dijawab model Anda dalam menjawab pertanyaan, dan tugas pengetahuan faktual.

    • Teks yang harus diringkas oleh model Anda dalam tugas ringkasan teks.

    • Teks yang harus diklasifikasikan oleh model Anda dalam tugas klasifikasi.

    • Teks yang Anda ingin model Anda terganggu dalam tugas ketahanan semantik.

  • target_output— Diperlukan untuk menunjukkan respons terhadap model Anda yang dievaluasi untuk tugas-tugas berikut.

    • Jawaban untuk menjawab pertanyaan, akurasi, ketahanan semantik, dan tugas evaluasi faktual.

    • Untuk akurasi, dan tugas ketahanan semantik, pisahkan jawaban yang dapat diterima dengan file. <OR> Evaluasi menerima salah satu jawaban yang dipisahkan oleh koma sebagai benar. Sebagai contoh, gunakantarget_output="UK<OR>England<OR>United Kingdom", jika Anda ingin menerima salah satu UK atau England atau United Kingdom sebagai jawaban yang dapat diterima.

  • (Opsional) category - Menghasilkan skor evaluasi yang dilaporkan untuk setiap kategori.

  • sent_less_input— Diperlukan untuk menunjukkan prompt yang mengandung lebih sedikit bias untuk tugas stereotip yang cepat.

  • sent_more_input— Diperlukan untuk menunjukkan prompt yang berisi lebih banyak bias untuk tugas stereotip yang cepat.

Evaluasi pengetahuan faktual membutuhkan pertanyaan untuk diajukan dan jawaban untuk memeriksa respons model. Gunakan kunci model_input dengan nilai yang terkandung dalam pertanyaan, dan kunci target_output dengan nilai yang terkandung dalam jawaban sebagai berikut:

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

Contoh sebelumnya adalah JSON objek valid tunggal yang membentuk satu catatan dalam file jsonlines input. Setiap JSON objek dikirim ke model Anda sebagai permintaan. Untuk membuat beberapa permintaan, sertakan beberapa baris. Contoh input data berikut adalah untuk tugas jawaban pertanyaan yang menggunakan category kunci opsional untuk evaluasi.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Jika Anda mengevaluasi algoritme di UI, default berikut akan ditetapkan untuk kumpulan data input Anda:

  • Jumlah catatan yang digunakan evaluasi adalah tetap. Algoritma mengambil sampel jumlah permintaan ini secara acak dari dataset input Anda.

    • Untuk mengubah nomor ini: Gunakan fmeval pustaka seperti yang dijelaskan dalam Sesuaikan alur kerja Anda menggunakan fmeval pustaka, dan atur parameter num_records ke jumlah sampel yang Anda inginkan, atau -1 untuk menentukan seluruh kumpulan data. Jumlah default catatan yang dievaluasi adalah 100 untuk akurasi, stereotip cepat, toksisitas, klasifikasi, dan tugas ketahanan semantik. Jumlah default catatan untuk tugas pengetahuan faktual adalah300.

  • Pembatas keluaran target seperti yang dijelaskan sebelumnya dalam target_output parameter diatur ke <OR> UI.

    • Untuk memisahkan jawaban yang dapat diterima menggunakan pembatas lain: Gunakan fmeval pustaka seperti yang dijelaskan dalam Sesuaikan alur kerja Anda menggunakan fmeval pustaka, dan atur parameter target_output_delimiter ke pembatas yang Anda inginkan.

  • Anda harus menggunakan model JumpStart bahasa berbasis teks yang tersedia untuk evaluasi model. Model-model ini memiliki beberapa parameter konfigurasi input data yang diteruskan secara otomatis ke dalam FMeval proses.

    • Untuk menggunakan jenis model lain: Gunakan fmeval pustaka untuk menentukan konfigurasi data untuk dataset input Anda.

Untuk menjalankan evaluasi otomatis untuk model bahasa besar Anda (LLM), Anda harus mengatur lingkungan Anda agar memiliki izin yang benar untuk menjalankan evaluasi. Kemudian, Anda dapat menggunakan UI untuk memandu Anda melalui langkah-langkah dalam alur kerja, dan menjalankan evaluasi. Bagian berikut menunjukkan cara menggunakan UI untuk menjalankan evaluasi otomatis.

Prasyarat
  • Untuk menjalankan evaluasi model di UI Studio, peran AWS Identity and Access Management (IAM) dan kumpulan data input apa pun harus memiliki izin yang benar. Jika Anda tidak memiliki SageMaker Domain atau IAM peran, ikuti langkah-langkahnyaPanduan untuk mengatur dengan Amazon SageMaker.

Untuk menyetel izin untuk bucket S3 Anda

Setelah domain dan peran Anda dibuat, gunakan langkah-langkah berikut untuk menambahkan izin yang diperlukan untuk mengevaluasi model Anda.

  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di panel navigasi, masuk S3 ke bilah pencarian di bagian atas halaman.

  3. Pilih S3 di bawah Layanan.

  4. Pilih Bucket dari panel navigasi.

  5. Di bagian Bucket tujuan umum, di bawah Nama, pilih nama bucket Amazon S3 yang ingin Anda gunakan untuk menyimpan kumpulan data prompt kustom, dan tempat Anda ingin hasil pekerjaan evaluasi model disimpan. Bucket Amazon S3 Anda harus Wilayah AWS sama dengan instans Studio Anda. Jika Anda tidak memiliki bucket Amazon S3, lakukan hal berikut.

    1. Pilih Buat ember untuk membuka halaman Bucket Buat baru.

    2. Di bagian Konfigurasi umum, di bawah AWS Wilayah, pilih AWS wilayah tempat model pondasi Anda berada.

    3. Beri nama bucket S3 Anda di kotak input di bawah nama Bucket.

    4. Terima semua pilihan default.

    5. Pilih Buat ember.

    6. Di bagian Bucket tujuan umum, di bawah Nama, pilih nama bucket S3 yang Anda buat.

  6. Pilih tab Izin.

  7. Gulir ke bagian Cross-origin resource sharing (CORS) di bagian bawah jendela. Pilih Edit.

  8. Untuk menambahkan CORS izin ke bucket, salin kode berikut ke dalam kotak input.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Pilih Simpan perubahan.

Untuk menambahkan izin ke kebijakan Anda IAM
  1. Di bilah pencarian di bagian atas halaman, masukkanIAM.

  2. Di bawah Layanan, pilih Identity and Access Management (IAM).

  3. Pilih Kebijakan dari panel navigasi.

  4. Pilih Buat kebijakan. Saat editor Kebijakan terbuka, pilih JSON.

  5. Pilih Berikutnya.

  6. Pastikan izin berikut muncul di editor Kebijakan. Anda juga dapat menyalin dan menempelkan berikut ini ke editor Kebijakan.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Pilih Berikutnya.

  8. Masukkan nama kebijakan di bagian Detail kebijakan, di bawah Nama kebijakan. Anda juga dapat memasukkan deskripsi opsional. Anda akan mencari nama kebijakan ini saat Anda menetapkannya ke peran.

  9. Pilih Buat kebijakan.

Untuk menambahkan izin ke peran Anda IAM
  1. Pilih Peran di panel navigasi. Masukkan nama peran yang ingin Anda gunakan.

  2. Pilih nama peran di bawah Nama peran. Jendela utama berubah untuk menampilkan informasi tentang peran Anda.

  3. Di bagian Kebijakan izin, pilih panah bawah di sebelah Tambahkan izin.

  4. Dari opsi yang muncul, pilih Lampirkan kebijakan.

  5. Dari daftar kebijakan yang muncul, cari kebijakan yang Anda buat di Langkah 5. Centang kotak di samping nama kebijakan Anda.

  6. Pilih panah bawah di sebelah Tindakan.

  7. Dari opsi yang muncul, pilih Lampirkan.

  8. Cari nama peran yang Anda buat. Pilih kotak centang di sebelah nama.

  9. Pilih Tambahkan izin. Spanduk di bagian atas halaman harus menyatakan Kebijakan berhasil dilampirkan ke peran.

  • .

Saat membuat pekerjaan evaluasi model otomatis, Anda dapat memilih dari JumpStart model berbasis teks yang tersedia atau Anda dapat menggunakan JumpStart model berbasis teks yang sebelumnya Anda gunakan ke titik akhir.

Untuk membuat pekerjaan evaluasi model otomatis menggunakan prosedur berikut.

Untuk meluncurkan pekerjaan evaluasi model otomatis di Studio.
  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di bilah pencarian di bagian atas halaman, masukkanSageMaker.

  3. Di bawah Layanan, pilih Amazon SageMaker.

  4. Pilih Studio dari panel navigasi.

  5. Pilih domain Anda dari bagian Memulai, setelah memperluas panah bawah di bawah Pilih Domain.

  6. Pilih profil pengguna Anda dari bagian Memulai setelah memperluas panah bawah di bawah Pilih profil pengguna.

  7. Pilih Open Studio untuk membuka landing page Studio.

  8. Pilih Pekerjaan dari panel navigasi utama.

  9. Kemudian, pilih Evaluasi model.

Untuk mengatur pekerjaan evaluasi
  1. Selanjutnya, pilih Evaluasi model,.

  2. Pada Langkah 1: Tentukan detail pekerjaan lakukan hal berikut:

    1. Masukkan Nama evaluasi model Anda. Nama ini membantu Anda mengidentifikasi pekerjaan evaluasi model Anda setelah diserahkan.

    2. Masukkan Deskripsi untuk menambahkan lebih banyak konteks ke nama.

    3. Pilih Berikutnya.

  3. Pada Langkah 2: Mengatur evaluasi lakukan hal berikut:

    1. Di bawah Jenis evaluasi pilih Otomatis.

    2. Kemudian, pilih Tambahkan model ke evaluasi

    3. Dalam modal Add model Anda dapat memilih untuk menggunakan model pondasi Jumpstart Pra-terlatih atau titik akhir. SageMaker Jika Anda sudah menerapkan JumpStart model, pilih SageMaker endpoint jika tidak, pilih Model pondasi Jumpstart yang telah dilatih sebelumnya.

    4. Lalu, pilih Simpan.

    5. (Opsional) Setelah menambahkan model Anda pilih template Prompt untuk melihat format input yang diharapkan untuk prompt berdasarkan model yang Anda pilih. Untuk informasi tentang cara mengonfigurasi templat prompt untuk kumpulan data, lihatTemplat cepat.

      • Untuk menggunakan templat prompt default, selesaikan langkah-langkah berikut:

        1. Aktifkan Gunakan templat prompt default yang disediakan oleh kumpulan data.

        2. (Opsional) Untuk setiap kumpulan data, tinjau prompt yang disediakan oleh Clarify.

        3. Pilih Simpan.

      • Untuk menggunakan templat prompt khusus, selesaikan langkah-langkah berikut:

        1. Matikan Gunakan templat prompt default yang disediakan oleh kumpulan data.

        2. Jika Clarify menampilkan prompt default, Anda dapat menyesuaikannya atau menghapusnya dan memasok milik Anda sendiri. Anda harus menyertakan $model_input variabel dalam template prompt.

        3. Pilih Simpan.

    6. Kemudian, di bawah Jenis tugas pilih jenis tugas.

      Untuk informasi selengkapnya tentang jenis tugas dan dimensi evaluasi terkait, lihat Evaluasi otomatis di Menggunakan kumpulan data yang cepat dan dimensi evaluasi yang tersedia dalam pekerjaan evaluasi model .

    7. Di bagian Metrik evaluasi, pilih dimensi Evaluasi. Kotak teks di bawah Deskripsi berisi konteks tambahan tentang dimensi.

      Setelah Anda memilih tugas, metrik yang terkait dengan tugas akan muncul di bawah Metrik. Di bagian ini, lakukan hal berikut.

    8. Pilih dimensi evaluasi dari panah bawah di bawah Dimensi evaluasi.

    9. Pilih dataset evaluasi. Anda dapat memilih untuk menggunakan dataset Anda sendiri atau menggunakan dataset bawaan. Jika Anda ingin menggunakan kumpulan data Anda sendiri untuk mengevaluasi model, itu harus diformat dengan cara yang FMEval dapat digunakan. Itu juga harus ditempatkan di bucket S3 yang memiliki CORS izin yang direferensikan di bagian sebelumnya. Siapkan lingkungan Anda Untuk informasi selengkapnya tentang cara memformat kumpulan data kustom, lihatMenggunakan dataset masukan kustom.

    10. Masukkan lokasi bucket S3 tempat Anda ingin menyimpan hasil evaluasi keluaran. File ini dalam format jsonlines (.jsonl).

    11. Konfigurasikan prosesor Anda di bagian Konfigurasi prosesor menggunakan parameter berikut:

      • Gunakan hitungan Instance untuk menentukan jumlah instance komputasi yang ingin Anda gunakan untuk menjalankan model Anda. Jika Anda menggunakan lebih dari 1 instance, model Anda dijalankan dalam instance paralel.

      • Gunakan tipe Instance untuk memilih jenis instance komputasi yang ingin Anda gunakan untuk menjalankan model Anda. Untuk informasi selengkapnya tentang jenis instance, lihatJenis instans tersedia untuk digunakan dengan Studio Classic.

      • Gunakan KMS tombol Volume untuk menentukan kunci enkripsi AWS Key Management Service (AWS KMS) Anda. SageMaker menggunakan AWS KMS kunci Anda untuk mengenkripsi lalu lintas masuk dari model dan bucket Amazon S3 Anda. Untuk informasi selengkapnya tentang kunci, lihat AWS Key Management Service.

      • Gunakan KMStombol Output untuk menentukan kunci AWS KMS enkripsi Anda untuk lalu lintas keluar.

      • Gunakan IAMPeran untuk menentukan akses dan izin untuk prosesor default. Masukkan IAM peran yang Anda atur Siapkan lingkungan Anda

    12. Setelah Anda menentukan model dan kriteria Anda, pilih Berikutnya. Jendela utama melompat ke Langkah 5 Tinjau dan Simpan.

Tinjau dan jalankan pekerjaan evaluasi Anda
  1. Tinjau semua parameter, model, dan data yang Anda pilih untuk evaluasi Anda.

  2. Pilih Buat sumber daya untuk menjalankan evaluasi Anda.

  3. Untuk memeriksa status pekerjaan Anda, buka bagian atas Evaluasi Model di halaman.