Buat pekerjaan evaluasi model yang menggunakan pekerja manusia - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Buat pekerjaan evaluasi model yang menggunakan pekerja manusia

penting

IAMKebijakan khusus yang memungkinkan Amazon SageMaker Studio atau Amazon SageMaker Studio Classic membuat SageMaker sumber daya Amazon juga harus memberikan izin untuk menambahkan tag ke sumber daya tersebut. Izin untuk menambahkan tag ke sumber daya diperlukan karena Studio dan Studio Classic secara otomatis menandai sumber daya apa pun yang mereka buat. Jika IAM kebijakan mengizinkan Studio dan Studio Classic membuat sumber daya tetapi tidak mengizinkan penandaan, kesalahan "AccessDenied" dapat terjadi saat mencoba membuat sumber daya. Untuk informasi selengkapnya, lihat Berikan izin untuk menandai sumber daya SageMaker.

AWS Kebijakan Terkelola untuk Amazon SageMakeryang memberikan izin untuk membuat SageMaker sumber daya sudah menyertakan izin untuk menambahkan tag saat membuat sumber daya tersebut.

Untuk membuat pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda harus mengatur lingkungan Anda untuk memiliki izin yang benar. Kemudian, Anda dapat menggunakan panduan pekerjaan evaluasi model di Studio untuk memilih model yang ingin Anda gunakan, lalu menentukan parameter dan tenaga kerja yang ingin Anda gunakan dalam pekerjaan evaluasi model.

Ketika pekerjaan selesai, Anda bisa melihat laporan untuk memahami bagaimana tenaga kerja Anda mengevaluasi model yang Anda pilih. Hasilnya juga disimpan di Amazon S3 sebagai file jsonlines output.

Dalam pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda memiliki kemampuan untuk membawa data inferensi dari model yang dihosting di luar SageMaker dan model yang dihosting di luar. AWS Untuk mempelajari selengkapnya, lihat Menggunakan data inferensi Anda sendiri dalam pekerjaan evaluasi model yang menggunakan pekerja manusia.

Ketika pekerjaan Anda selesai, hasilnya disimpan di bucket Amazon S3 yang ditentukan saat pekerjaan dibuat. Untuk mempelajari cara menafsirkan hasil Anda, lihatMemahami hasil pekerjaan evaluasi model Anda.

Prasyarat

Untuk menjalankan evaluasi model di Amazon SageMaker Studio UI, peran AWS Identity and Access Management (IAM) dan kumpulan data input apa pun harus memiliki izin yang benar. Jika Anda tidak memiliki SageMaker Domain atau IAM peran, ikuti langkah-langkahnyaPanduan untuk mengatur dengan Amazon SageMaker.

Menyiapkan izin Anda

Bagian berikut menunjukkan cara membuat bucket Amazon S3 dan cara menentukan izin berbagi sumber daya () CORS Cross-origin yang benar.

Untuk membuat bucket Amazon S3 dan menentukan izin CORS
  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di panel navigasi, masuk S3 ke bilah pencarian di bagian atas halaman.

  3. Pilih S3 di bawah Layanan.

  4. Pilih Bucket dari panel navigasi.

  5. Di bagian Bucket tujuan umum, di bawah Nama, pilih nama bucket S3 yang ingin Anda gunakan untuk menyimpan input dan output model Anda di konsol. Jika Anda tidak memiliki ember S3, lakukan hal berikut.

    1. Pilih Buat ember untuk membuka halaman Bucket Buat baru.

    2. Di bagian Konfigurasi umum, di bawah AWS Wilayah, pilih AWS wilayah tempat model pondasi Anda berada.

    3. Beri nama bucket S3 Anda di kotak input di bawah nama Bucket.

    4. Terima semua pilihan default.

    5. Pilih Buat ember.

    6. Di bagian Bucket tujuan umum, di bawah Nama, pilih nama bucket S3 yang Anda buat.

  6. Pilih tab Izin.

  7. Gulir ke bagian Cross-origin resource sharing (CORS) di bagian bawah jendela. Pilih Edit.

  8. Berikut ini adalah CORS kebijakan wajib minimum yang harus Anda tambahkan ke bucket Amazon S3 Anda. Salin dan tempel berikut ini ke dalam kotak input.

    [ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
  9. Pilih Simpan perubahan.

Untuk menambahkan izin ke kebijakan Anda IAM

Anda mungkin ingin mempertimbangkan tingkat izin untuk dilampirkan ke IAM peran Anda.

  • Anda dapat membuat IAM kebijakan khusus yang memungkinkan izin minimum yang diperlukan yang disesuaikan dengan layanan ini.

  • Anda dapat melampirkan yang ada AmazonSageMakerFullAccessdan AmazonS3FullAccesskebijakan ke IAM peran Anda yang ada, yang lebih permisif. Untuk informasi selengkapnya tentang AmazonSageMakerFullAccess kebijakan ini, lihat AmazonSageMakerFullAccess.

Jika Anda ingin melampirkan kebijakan yang ada ke IAM peran Anda, Anda dapat melewati petunjuk yang ditetapkan di sini dan terus mengikuti petunjuk di bawah Untuk menambahkan izin ke IAM peran Anda.

Petunjuk berikut membuat IAM kebijakan kustom yang disesuaikan dengan layanan ini dengan izin minimum.

  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di bilah pencarian di bagian atas halaman, masukkanIAM.

  3. Di bawah Layanan, pilih Identity and Access Management (IAM).

  4. Pilih Kebijakan dari panel navigasi.

  5. Pilih Buat kebijakan. Saat editor Kebijakan terbuka, pilih JSON.

  6. Pastikan izin berikut muncul di editor Kebijakan. Anda juga dapat menyalin dan menempelkan berikut ini ke editor Kebijakan.

    { "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*", "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource":"*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "account-id" ] } } }] }
  7. Pilih Berikutnya.

  8. Masukkan nama kebijakan di bagian Detail kebijakan, di bawah Nama kebijakan. Anda juga dapat memasukkan deskripsi opsional. Anda akan mencari nama kebijakan ini saat Anda menetapkannya ke peran.

  9. Pilih Buat kebijakan.

Untuk menambahkan izin ke peran Anda IAM
  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di bilah pencarian di bagian atas halaman, masukkanIAM.

  3. Di bawah Layanan, pilih Identity and Access Management (IAM).

  4. Pilih Peran di panel navigasi.

  5. Jika Anda membuat peran baru:

    1. Pilih Buat peran.

    2. Pada langkah Pilih entitas tepercaya, di bawah Jenis entitas tepercaya pilih Kebijakan kepercayaan khusus.

    3. Di editor kebijakan kepercayaan kustom, di samping Tambah prinsipal pilih Tambah.

    4. Pada kotak pop-up Tambah utama, di bawah Jenis utama pilih AWS layanan dari daftar dropdown opsi.

    5. Di bawah ARNganti {ServiceName} dengansagemaker.

    6. Pilih Tambahkan prinsipal.

    7. Pilih Berikutnya.

    8. (Opsional) Di bawah Kebijakan izin pilih kebijakan yang ingin Anda tambahkan ke peran Anda.

    9. (Opsional) Di bawah Setel batas izin - opsional pilih pengaturan batas izin Anda.

    10. Pilih Berikutnya.

    11. Pada langkah Nama, tinjau, dan buat, di bawah Rincian peran isi nama Peran dan Deskripsi Anda.

    12. (Opsional) Di bawah Tambahkan tag - opsional, Anda dapat menambahkan tag dengan memilih Tambahkan tag baru dan masukkan Kunci dan Nilai - pasangan opsional.

    13. Meninjau pengaturan Anda.

    14. Pilih Buat peran.

  6. Jika Anda menambahkan kebijakan ke peran yang ada:

    1. Pilih nama peran di bawah Nama peran. Jendela utama berubah untuk menampilkan informasi tentang peran Anda.

    2. Di bagian Kebijakan izin, pilih panah bawah di sebelah Tambahkan izin.

    3. Dari opsi yang muncul, pilih Lampirkan kebijakan.

    4. Dari daftar kebijakan yang muncul, cari dan pilih kebijakan yang Anda buat di bawah Untuk menambahkan izin ke IAM kebijakan Anda, lalu centang kotak di samping nama kebijakan Anda. Jika Anda tidak membuat IAM kebijakan kustom, cari dan pilih kotak centang di samping yang AWS disediakan AmazonSageMakerFullAccessdan AmazonS3FullAccesskebijakan. Anda mungkin ingin mempertimbangkan tingkat izin untuk dilampirkan ke IAM peran Anda. Instruksi untuk IAM kebijakan kustom kurang permisif, sedangkan yang terakhir lebih permisif. Untuk informasi selengkapnya tentang AmazonSageMakerFullAccess kebijakan ini, lihat AmazonSageMakerFullAccess.

    5. Pilih Tambahkan izin. Spanduk di bagian atas halaman harus menyatakan Kebijakan berhasil dilampirkan ke peran. ketika selesai.

Untuk menambahkan kebijakan kepercayaan ke IAM peran Anda

Kebijakan kepercayaan berikut membuatnya sehingga administrator dapat mengizinkan SageMaker untuk mengambil peran. Anda perlu menambahkan kebijakan ke IAM peran Anda. Gunakan langkah-langkah berikut untuk melakukannya.

  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di bilah pencarian di bagian atas halaman, masukkanIAM.

  3. Di bawah Layanan, pilih Identity and Access Management (IAM).

  4. Pilih Peran di panel navigasi.

  5. Pilih nama peran di bawah Nama peran. Jendela utama berubah untuk menampilkan informasi tentang peran Anda.

  6. Pilih tab Hubungan kepercayaan.

  7. Pilih Edit kebijakan kepercayaan.

  8. Pastikan bahwa kebijakan berikut muncul di bawah kebijakan Edit kepercayaan. Anda juga dapat menyalin dan menempelkan yang berikut ini ke editor.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
  9. Pilih Perbarui kebijakan. Spanduk di bagian atas halaman harus menyatakan kebijakan Trust diperbarui. ketika selesai.

Anda dapat membuat pekerjaan evaluasi manusia menggunakan model berbasis teks yang tersedia JumpStart atau Anda dapat menggunakan JumpStart model yang sebelumnya Anda gunakan ke titik akhir.

Untuk meluncurkan JumpStart
  1. Buka SageMaker konsol Amazon di https://console.aws.amazon.com/sagemaker/.

  2. Di bilah pencarian di bagian atas halaman, masukkanSageMaker.

  3. Di bawah Layanan, pilih Amazon SageMaker.

  4. Pilih Studio dari panel navigasi.

  5. Pilih domain Anda dari bagian Memulai, setelah memperluas panah bawah di bawah Pilih Domain.

  6. Pilih profil pengguna Anda dari bagian Memulai setelah memperluas panah bawah di bawah Pilih profil pengguna.

  7. Pilih Open Studio untuk membuka landing page Studio.

  8. Pilih Jobs dari panel navigasi.

Untuk mengatur pekerjaan evaluasi
  1. Pada halaman beranda evaluasi Model, pilih Evaluasi model

  2. Tentukan detail pekerjaan.

    1. Masukkan nama Evaluasi evaluasi model Anda. Nama ini membantu Anda mengidentifikasi pekerjaan evaluasi model Anda setelah diserahkan.

    2. Masukkan Deskripsi untuk menambahkan lebih banyak konteks ke nama.

    3. Pilih Berikutnya.

  3. Mengatur evaluasi

    1. Di bawah Pilih jenis evaluasi, pilih tombol radio di sebelah Manusia.

    2. Di bawah Pilih model yang ingin Anda evaluasi, pilih Tambahkan model ke evaluasi. Anda dapat mengevaluasi hingga dua model untuk setiap evaluasi.

      1. Untuk menggunakan model pra-terlatih, pilih JumpStart Model JumpStart pondasi pra-terlatih. Jika Anda ingin menggunakan JumpStart model yang sebelumnya Anda gunakan ke titik akhir, pilih Endpoints dengan JumpStart model foundation.

      2. Jika model memerlukan perjanjian hukum, pilih kotak centang untuk mengonfirmasi bahwa Anda setuju.

      3. Jika Anda ingin menambahkan model lain, ulangi langkah sebelumnya.

    3. Untuk mengubah bagaimana model berperilaku selama inferensi pilih, Tetapkan parameter.

      Parameter set berisi daftar parameter inferensi yang memengaruhi tingkat keacakan dalam output model Anda, panjang output model Anda, dan kata-kata apa yang akan dipilih model selanjutnya.

    4. Selanjutnya, pilih tipe Tugas. Anda dapat memilih salah satu dari berikut ini:

      • Ringkasan Teks

      • Menjawab Pertanyaan (T&J)

      • Klasifikasi teks

      • Generasi Terbuka

      • Kustom

    5. Di bagian Metrik evaluasi, pilih dimensi Evaluasi dan masukkan konteks tambahan tentang dimensi di kotak teks di bawah Deskripsi. Anda dapat memilih dari dimensi berikut:

      • Kefasihan — Mengukur kualitas linguistik dari teks yang dihasilkan.

      • Koherensi — Mengukur organisasi dan struktur teks yang dihasilkan.

      • Toksisitas — Mengukur bahaya teks yang dihasilkan.

      • Akurasi — Menunjukkan keakuratan teks yang dihasilkan.

      • Dimensi evaluasi khusus yang dapat Anda tentukan nama dan deskripsi untuk tim kerja Anda.

        Untuk menambahkan dimensi evaluasi khusus, lakukan hal berikut:

        • Pilih Tambahkan dimensi evaluasi.

        • Di kotak teks yang berisi Menyediakan dimensi evaluasi, masukkan nama dimensi kustom Anda.

        • Di kotak teks yang berisi Berikan deskripsi untuk dimensi evaluasi ini, masukkan deskripsi sehingga tim kerja Anda memahami cara mengevaluasi dimensi kustom Anda.

      Di bawah masing-masing metrik ini terdapat metrik pelaporan yang dapat Anda pilih dari panah bawah Pilih jenis metrik. Jika Anda memiliki dua model untuk dievaluasi, Anda dapat memilih metrik pelaporan komparatif atau individual. Jika Anda memiliki satu model untuk dievaluasi, Anda hanya dapat memilih metrik pelaporan individual. Anda dapat memilih jenis metrik pelaporan berikut untuk setiap metrik di atas.

      • (Komparatif) Skala Likert - perbandingan - Evaluator manusia akan menunjukkan preferensi mereka antara dua tanggapan pada skala Likert 5 poin sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat kekuatan preferensi dari evaluator atas seluruh kumpulan data Anda. Tentukan poin-poin penting dari skala 5 poin dalam instruksi Anda sehingga evaluator Anda tahu cara menilai respons sesuai dengan harapan Anda. Dalam JSON output yang disimpan di Amazon S3 pilihan ini direpresentasikan sebagai pasangan ComparisonLikertScale nilai kunci. "evaluationResults":"ComparisonLikertScale"

      • (Komparatif) Tombol pilihan — Memungkinkan evaluator manusia untuk menunjukkan satu respons pilihan mereka daripada respons lain. Evaluator menunjukkan preferensi mereka antara dua tanggapan sesuai dengan instruksi Anda menggunakan tombol radio. Hasil dalam laporan akhir akan ditampilkan sebagai persentase tanggapan yang disukai pekerja untuk setiap model. Jelaskan metode evaluasi Anda dengan jelas dalam instruksi Anda. Dalam JSON output yang disimpan di Amazon S3 pilihan ini direpresentasikan sebagai pasangan ComparisonChoice nilai kunci. "evaluationResults":"ComparisonChoice"

      • (Komparatif) Peringkat Ordinal — Memungkinkan evaluator manusia untuk memberi peringkat tanggapan pilihan mereka ke prompt secara berurutan, mulai dari1, sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat dari evaluator di seluruh kumpulan data. Tentukan apa peringkat 1 berarti dalam instruksi Anda. Dalam JSON output yang disimpan di Amazon S3 pilihan ini direpresentasikan sebagai pasangan ComparisonRank nilai kunci. "evaluationResults":"ComparisonRank"

      • (Individu) Jempol ke atas/bawah — Memungkinkan evaluator manusia menilai setiap respons dari model sebagai dapat diterima atau tidak dapat diterima sesuai dengan instruksi Anda. Hasil dalam laporan akhir akan ditampilkan sebagai persentase dari jumlah total peringkat oleh evaluator yang menerima peringkat jempol untuk setiap model. Anda dapat menggunakan metode penilaian ini untuk evaluasi satu atau lebih model. Jika Anda menggunakan ini dalam evaluasi yang berisi dua model, jempol ke atas atau ke bawah akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Tentukan apa yang dapat diterima sebagai peringkat jempol ke atas atau jempol ke bawah dalam instruksi Anda. Dalam JSON output yang disimpan di Amazon S3 pilihan ini direpresentasikan sebagai pasangan ThumbsUpDown nilai kunci. "evaluationResults":"ThumbsUpDown"

      • (Individu) Skala Likert - individu - Memungkinkan evaluator manusia untuk menunjukkan seberapa kuat mereka menyetujui respons model berdasarkan instruksi Anda pada skala Likert 5 poin. Hasil dalam laporan akhir akan ditampilkan sebagai histogram peringkat 5 poin dari evaluator di seluruh kumpulan data Anda. Anda dapat menggunakan skala ini untuk evaluasi yang berisi satu atau lebih model. Jika Anda memilih metode penilaian ini dalam evaluasi yang berisi lebih dari satu model, skala Likert 5 poin akan disajikan kepada tim kerja Anda untuk setiap respons model dan laporan akhir akan menunjukkan hasil agregat untuk setiap model secara individual. Tentukan poin-poin penting pada skala 5 poin dalam instruksi Anda sehingga evaluator Anda tahu bagaimana menilai respons sesuai dengan harapan Anda. Dalam JSON output yang disimpan di Amazon S3 pilihan ini direpresentasikan sebagai pasangan IndividualLikertScale nilai kunci. "evaluationResults":"IndividualLikertScale"

    6. Pilih kumpulan data Prompt. Dataset ini diperlukan dan akan digunakan oleh tim kerja manusia Anda untuk mengevaluasi tanggapan dari model Anda. Berikan S3 URI ke bucket Amazon S3 yang berisi kumpulan data prompt Anda di kotak teks di bawah URI S3 untuk file kumpulan data input Anda. Dataset Anda harus dalam jsonlines format dan berisi kunci berikut untuk mengidentifikasi bagian mana dari kumpulan data Anda yang akan digunakan UI untuk mengevaluasi model Anda:

      • prompt— Permintaan yang Anda ingin model Anda menghasilkan respons.

      • (Opsional) category — - Label kategori untuk prompt Anda. categoryKuncinya digunakan untuk mengkategorikan petunjuk Anda sehingga Anda dapat memfilter hasil evaluasi Anda nanti berdasarkan kategori untuk pemahaman yang lebih dalam tentang hasil evaluasi. Itu tidak berpartisipasi dalam evaluasi itu sendiri, dan pekerja tidak melihatnya di UI evaluasi.

      • (Opsional) referenceResponse — Jawaban referensi untuk evaluator manusia Anda. Jawaban referensi tidak dinilai oleh pekerja Anda, tetapi dapat digunakan untuk memahami tanggapan apa yang dapat diterima atau tidak dapat diterima, berdasarkan instruksi Anda.

      • (Opsional) responses — Digunakan untuk menentukan kesimpulan dari model di luar SageMaker atau di luar. AWS

        Objek ini membutuhkan dua pasangan nilai kunci tambahan "modelIdentifier yang merupakan string yang mengidentifikasi model, dan "text" yang merupakan inferensi model.

        Jika Anda menentukan "responses" kunci dalam setiap input dari dataset prompt kustom itu harus ditentukan di semua input.

      • Contoh json kode berikut menunjukkan pasangan kunci-nilai yang diterima dalam dataset prompt kustom. Kotak centang Bawa inferensi Anda sendiri harus dicentang jika kunci tanggapan disediakan. Jika dicentang, responses kunci harus selalu ditentukan di setiap prompt. Contoh berikut dapat digunakan dalam skenario tanya jawab.

        { "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The capital of Aurillac is Cantal." } ] }
    7. Masukkan lokasi bucket S3 tempat Anda ingin menyimpan hasil evaluasi keluaran di kotak teks di bawah Pilih lokasi S3 untuk menyimpan hasil evaluasi Anda. File output yang ditulis ke lokasi S3 ini akan dalam JSON format, diakhiri dengan ekstensi,.json.

    8. catatan

      Jika Anda ingin memasukkan data inferensi Anda sendiri dalam pekerjaan evaluasi model, Anda hanya dapat menggunakan satu model.

      (Opsional) Pilih kotak centang di bawah Bawa inferensi Anda sendiri untuk menunjukkan bahwa kumpulan data prompt Anda berisi kuncinya. responses Jika Anda menentukan responses kunci sebagai bagian dari petunjuk apa pun, itu harus ada di semuanya.

    9. Konfigurasikan prosesor Anda di bagian Konfigurasi prosesor menggunakan parameter berikut:

      • Gunakan hitungan Instance untuk menentukan jumlah instance komputasi yang akan digunakan untuk menjalankan model Anda. Jika Anda menggunakan lebih dari 1 instance, model Anda akan berjalan dalam instance paralel.

      • Gunakan tipe Instance untuk memilih jenis instance komputasi yang ingin Anda gunakan untuk menjalankan model Anda. AWS memiliki instance komputasi umum dan instance yang dioptimalkan untuk komputasi dan memori. Untuk informasi selengkapnya tentang jenis instance, lihatJenis instans tersedia untuk digunakan dengan Studio Classic.

      • Jika Anda SageMaker ingin menggunakan kunci enkripsi AWS Key Management Service (AWS KMS) Anda sendiri alih-alih kunci layanan AWS terkelola default, alihkan untuk memilih Aktif di bawah KMSTombol volume, dan masukkan kunci. AWS KMS SageMaker akan menggunakan AWS KMS kunci Anda untuk mengenkripsi data pada volume penyimpanan. Untuk informasi selengkapnya tentang kunci, lihat AWS Key Management Service.

      • Jika Anda SageMaker ingin menggunakan kunci enkripsi AWS Key Management Service (AWS KMS) Anda sendiri alih-alih kunci layanan AWS terkelola default, alihkan untuk memilih Aktif di bawah KMStombol Output dan masukkan kunci. AWS KMS SageMaker akan menggunakan AWS KMS kunci Anda untuk mengenkripsi output pekerjaan pemrosesan.

      • Gunakan IAM peran untuk menentukan akses dan izin untuk prosesor default. Masukkan IAM peran yang Anda atur di bagian Siapkan IAM peran Anda di bagian Jalankan evaluasi manusia ini.

    10. Setelah Anda menentukan model dan kriteria Anda, pilih Berikutnya.

Tim kerja Anda terdiri dari orang-orang yang mengevaluasi model Anda. Setelah tim kerja Anda dibuat, itu bertahan tanpa batas waktu dan Anda tidak dapat mengubah atributnya. Berikut ini menunjukkan cara memulai dengan tim kerja Anda.

Siapkan tim kerja Anda
  1. Pilih tim yang ada atau Buat tim baru di kotak teks input tim Pilih.

  2. Tentukan nama organisasi Anda dalam nama Organisasi. Bidang ini hanya muncul saat Anda membuat tim kerja pertama di akun.

  3. Tentukan email kontak. Pekerja Anda akan menggunakan email ini untuk berkomunikasi dengan Anda tentang tugas evaluasi yang akan Anda berikan kepada mereka. Bidang ini hanya muncul saat Anda membuat tim kerja pertama di akun.

  4. Tentukan nama Tim. Anda tidak dapat mengubah nama ini nanti.

  5. Tentukan daftar alamat Email untuk setiap pekerja manusia Anda yang akan mengevaluasi model bahasa besar Anda (LLM). Ketika Anda menentukan alamat email untuk tim Anda, mereka akan diberitahu tentang pekerjaan baru hanya ketika mereka baru ditambahkan ke tim kerja. Jika Anda menggunakan tim yang sama untuk pekerjaan berikutnya, Anda harus memberi tahu mereka secara manual.

  6. Kemudian, tentukan Jumlah pekerja per prompt

Berikan instruksi untuk tim kerja Anda
  1. Berikan instruksi terperinci kepada tenaga kerja manusia Anda sehingga mereka dapat mengevaluasi model Anda sesuai dengan metrik dan standar Anda. Template di jendela utama menunjukkan instruksi sampel yang dapat Anda berikan. Untuk informasi selengkapnya tentang cara memberikan instruksi, lihat Membuat instruksi pekerja yang baik.

  2. Untuk meminimalkan bias dalam evaluasi manusia Anda, pilih kotak centang di sebelah Mengacak posisi respons.

  3. Pilih Selanjutnya.

Anda dapat meninjau ringkasan pilihan yang telah Anda buat untuk pekerjaan manusia Anda. Jika Anda harus mengubah pekerjaan Anda, pilih Sebelumnya untuk kembali ke pilihan sebelumnya.

Kirimkan permintaan pekerjaan evaluasi Anda dan lihat kemajuan pekerjaan
  1. Untuk mengirimkan permintaan pekerjaan evaluasi Anda, pilih Buat sumber daya.

  2. Untuk melihat status semua pekerjaan Anda, pilih Pekerjaan di panel navigasi. Kemudian, pilih Evaluasi model. Status evaluasi ditampilkan sebagai Selesai, Gagal, atau Sedang berlangsung.

    Berikut ini juga menampilkan:

    • Contoh notebook untuk menjalankan evaluasi model di SageMaker dan Amazon Bedrock.

    • Tautan ke informasi tambahan termasuk dokumentasi, video, berita, dan blog tentang proses evaluasi model.

    • Portal URL ke pekerja pribadi Anda juga tersedia.

  3. Pilih evaluasi model Anda di bawah Nama untuk melihat ringkasan evaluasi Anda.

    • Ringkasan memberikan informasi tentang status pekerjaan, tugas evaluasi seperti apa yang Anda jalankan pada model mana, dan kapan dijalankan. Mengikuti ringkasan, skor evaluasi manusia diurutkan dan diringkas berdasarkan metrik.

Lihat kartu laporan pekerjaan evaluasi model Anda yang menggunakan pekerja manusia
  1. Untuk melihat laporan pekerjaan Anda, pilih Lowongan di panel navigasi.

  2. Kemudian, pilih Evaluasi model. Salah satu halaman beranda evaluasi Model, gunakan tabel untuk menemukan pekerjaan evaluasi model Anda. Setelah status pekerjaan berubah menjadi Selesai, Anda dapat melihat kartu laporan Anda.

  3. Pilih nama pekerjaan evaluasi model untuk rapornya.

Ketika Anda membuat pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda memiliki opsi untuk membawa data inferensi Anda sendiri, dan meminta pekerja manusia Anda membandingkan data inferensi tersebut dengan data yang dihasilkan oleh satu JumpStart model lain atau JumpStart model yang telah Anda gunakan ke titik akhir.

Topik ini menjelaskan format yang diperlukan untuk data inferensi, dan prosedur yang disederhanakan untuk cara menambahkan data tersebut ke pekerjaan evaluasi model Anda.

Pilih kumpulan data Prompt. Dataset ini diperlukan dan akan digunakan oleh tim kerja manusia Anda untuk mengevaluasi tanggapan dari model Anda. Berikan S3 URI ke bucket Amazon S3 yang berisi kumpulan data prompt Anda di kotak teks di bawah Pilih lokasi S3 untuk menyimpan hasil evaluasi Anda. Dataset Anda harus dalam .jsonl format. Setiap catatan harus merupakan JSON objek yang valid, dan berisi kunci yang diperlukan berikut:

  • prompt— JSON Objek yang berisi teks yang akan diteruskan ke model.

  • (Opsional) category — - Label kategori untuk prompt Anda. categoryKuncinya digunakan untuk mengkategorikan petunjuk Anda sehingga Anda dapat memfilter hasil evaluasi Anda nanti berdasarkan kategori untuk pemahaman yang lebih dalam tentang hasil evaluasi. Itu tidak berpartisipasi dalam evaluasi itu sendiri, dan pekerja tidak melihatnya di UI evaluasi.

  • (Opsional) referenceResponse — JSON objek yang berisi jawaban referensi untuk evaluator manusia Anda. Jawaban referensi tidak dinilai oleh pekerja Anda, tetapi dapat digunakan untuk memahami tanggapan apa yang dapat diterima atau tidak dapat diterima, berdasarkan instruksi Anda.

  • responses— Digunakan untuk menentukan kesimpulan individu dari model di luar SageMaker atau di luar. AWS

    Objek ini membutuhkan pasangan nilai kunci tambahan "modelIdentifier yang merupakan string yang mengidentifikasi model, dan "text" yang merupakan inferensi model.

    Jika Anda menentukan "responses" kunci dalam setiap input dari dataset prompt kustom itu harus ditentukan di semua input.

Contoh json kode berikut menunjukkan pasangan nilai kunci yang diterima dalam kumpulan data prompt kustom yang berisi data inferensi Anda sendiri.

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

Untuk memulai meluncurkan Studio, dan di bawahnya pilih Evaluasi model di bawah Pekerjaan di navigasi utama.

Untuk menambahkan data inferensi Anda sendiri ke pekerjaan evaluasi model manusia.
  1. Pada Langkah 1: Tentukan detail pekerjaan tambahkan nama pekerjaan evaluasi model Anda, dan deskripsi opsional.

  2. Pada Langkah 2: Siapkan evaluasi pilih Manusia.

  3. Selanjutnya, di bawah Pilih model yang ingin Anda evaluasi, Anda dapat memilih model yang ingin Anda gunakan. Anda dapat menggunakan JumpStart model yang telah digunakan atau Anda dapat memilih model pondasi Jumpstart yang telah dilatih sebelumnya.

  4. Kemudian, pilih tipe Tugas.

  5. Selanjutnya, Anda dapat menambahkan metrik Evaluasi.

  6. Selanjutnya, di bawah Set data Prompt pilih kotak centang di bawah Bawa inferensi Anda sendiri untuk menunjukkan bahwa permintaan Anda memiliki kunci respons di dalamnya.

  7. Kemudian lanjutkan menyiapkan pekerjaan evaluasi model Anda.

Untuk mempelajari lebih lanjut tentang bagaimana tanggapan dari pekerjaan evaluasi model Anda yang menggunakan pekerja manusia disimpan, lihat Memahami hasil pekerjaan evaluasi manusia