Menciptakan pekerjaan evaluasi model yang menggunakan pekerja manusia - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menciptakan pekerjaan evaluasi model yang menggunakan pekerja manusia

Dalam pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda dapat mengevaluasi dan membandingkan tanggapan dari hingga dua model. Anda dapat memilih dari daftar metrik yang direkomendasikan atau menggunakan metrik yang Anda tentukan sendiri. Anda dapat memiliki maksimal 20 pekerjaan evaluasi model yang menggunakan pekerja manusia Sedang berlangsung di Akun AWS per Anda Wilayah AWS.

Untuk setiap metrik yang Anda gunakan, Anda harus menentukan metode Rating. Metode penilaian mendefinisikan bagaimana pekerja manusia Anda akan mengevaluasi tanggapan yang mereka lihat dari model yang Anda pilih. Untuk mempelajari lebih lanjut tentang berbagai metode penilaian yang tersedia dan cara membuat instruksi berkualitas tinggi untuk pekerja, lihatMembuat dan mengelola tim kerja di Amazon Bedrock.

Prasyarat

Untuk menyelesaikan prosedur berikut, Anda harus melakukan hal berikut. Pekerjaan evaluasi model yang dibuat di konsol Amazon Bedrock mengharuskan CORS izin dikonfigurasi pada bucket Amazon S3 yang ditentukan saat pekerjaan dibuat.

Untuk pekerjaan evaluasi model yang menggunakan pekerja manusia, kumpulan data bawaan tidak didukung. Untuk mempelajari selengkapnya tentang membuat kumpulan data prompt kustom, lihat. Persyaratan untuk kumpulan data prompt khusus dalam pekerjaan evaluasi model yang menggunakan pekerja manusia

  1. Anda harus memiliki akses ke model di Amazon Bedrock.

  2. Anda harus memiliki peran layanan Amazon Bedrock. Jika Anda belum memiliki peran layanan yang telah dibuat, Anda dapat membuatnya di konsol Amazon Bedrock saat menyiapkan pekerjaan evaluasi model Anda. Kebijakan terlampir harus memberikan akses ke bucket S3 apa pun yang digunakan dalam pekerjaan evaluasi model, dan model apa pun ARNs yang ditentukan dalam pekerjaan. Itu juga harus memilikisagemaker:StartHumanLoop,sagemaker:StopHumanLoop, sagemaker:DescribeHumanLoop dan sagemaker:DescribeFlowDefinition SageMaker IAM tindakan yang didefinisikan dalam kebijakan. Peran layanan juga harus memiliki Amazon Bedrock yang didefinisikan sebagai prinsip layanan dalam kebijakan kepercayaan peran. Untuk mempelajari selengkapnya, lihat Peran layanan.

  3. Anda harus memiliki peran SageMaker layanan Amazon. Jika Anda belum memiliki peran layanan yang telah dibuat, Anda dapat membuatnya di konsol Amazon Bedrock saat menyiapkan pekerjaan evaluasi model Anda. Kebijakan terlampir harus memberikan akses ke sumber daya dan IAM tindakan berikut. Setiap ember S3 yang digunakan dalam pekerjaan evaluasi model. Kebijakan kepercayaan peran harus SageMaker didefinisikan sebagai prinsip layanan. Untuk mempelajari selengkapnya, lihat Izin yang diperlukan.

  4. Pengguna, grup, atau peran yang mengakses konsol Amazon Bedrock harus memiliki izin yang diperlukan untuk mengakses bucket Amazon S3 yang diperlukan.

  5. Bucket Amazon S3 keluaran, dan bucket kumpulan data prompt khusus apa pun harus memiliki CORS izin yang diperlukan yang ditambahkan ke dalamnya. Untuk mempelajari lebih lanjut tentang CORS izin yang diperlukan, lihatIzin Cross Origin Resource Sharing (CORS) yang diperlukan pada bucket S3.

Tutorial: Membuat evaluasi model yang menggunakan pekerja manusia

Gunakan tutorial berikut untuk membuat pekerjaan evaluasi model yang menggunakan pekerja manusia.

Melihat hasil pekerjaan evaluasi model menggunakan konsol Amazon Bedrock

Saat pekerjaan evaluasi model selesai, hasilnya akan disimpan di bucket Amazon S3 yang Anda tentukan. Jika Anda mengubah lokasi hasil dengan cara apa pun, kartu laporan evaluasi model tidak lagi terlihat di konsol.

Untuk membuat pekerjaan evaluasi model yang menggunakan pekerja manusia
  1. Buka konsol Amazon Bedrock: home https://console.aws.amazon.com/bedrock/

  2. Di panel navigasi, pilih Evaluasi model.

  3. Dalam Buat kartu evaluasi, di bawah Manusia: bawa tim Anda sendiri pilih Buat evaluasi berbasis manusia.

  4. Pada halaman Tentukan detail pekerjaan berikan yang berikut ini.

    1. Nama evaluasi — Berikan nama pekerjaan evaluasi model yang menggambarkan pekerjaan. Nama ini ditampilkan dalam daftar pekerjaan evaluasi model Anda. Nama harus unik dalam diri Anda Akun AWS dalam sebuah Wilayah AWS.

    2. Deskripsi (Opsional) - Berikan deskripsi opsional.

  5. Lalu, pilih Selanjutnya.

  6. Pada halaman Mengatur evaluasi berikan yang berikut ini.

    1. Model — Anda dapat memilih hingga dua model yang ingin Anda gunakan dalam pekerjaan evaluasi model.

      Untuk mempelajari lebih lanjut tentang model yang tersedia di Amazon Bedrock, lihatKelola akses ke model fondasi Amazon Bedrock.

    2. (Opsional) Untuk mengubah konfigurasi inferensi untuk model yang dipilih pilih update.

      Mengubah konfigurasi inferensi mengubah respons yang dihasilkan oleh model yang dipilih. Untuk mempelajari lebih lanjut tentang parameter inferensi yang tersedia, lihatParameter inferensi untuk model pondasi.

    3. Jenis tugas — Pilih jenis tugas yang Anda ingin model coba lakukan selama pekerjaan evaluasi model. Semua instruksi untuk model harus dimasukkan dalam petunjuknya sendiri. Jenis tugas tidak mengontrol respons model.

    4. Metrik evaluasi — Daftar metrik yang direkomendasikan berubah berdasarkan tugas yang Anda pilih. Untuk setiap metrik yang disarankan, Anda harus memilih metode Rating. Anda dapat memiliki maksimum 10 metrik evaluasi per pekerjaan evaluasi model.

    5. (Opsional) Pilih Tambahkan metrik baru untuk menambahkan metrik baru. Anda harus menentukan metode Metrik, Deskripsi, dan Peringkat.

    6. Dalam kartu Datasets Anda harus memberikan yang berikut ini.

      1. Pilih kumpulan data yang cepat — Tentukan S3 URI file kumpulan data prompt Anda atau pilih Jelajahi S3 untuk melihat bucket S3 yang tersedia. Anda dapat memiliki maksimum 1000 prompt dalam kumpulan data prompt khusus.

      2. Tujuan hasil evaluasi - Anda harus menentukan S3 URI direktori tempat Anda ingin hasil pekerjaan evaluasi model Anda disimpan, atau pilih Jelajahi S3 untuk melihat bucket S3 yang tersedia.

    7. AWS KMS Kunci (Opsional) — Berikan kunci terkelola pelanggan yang ingin Anda gunakan untuk mengenkripsi pekerjaan evaluasi model Anda. ARN

    8. Dalam IAMperan Amazon Bedrock — Kartu izin, Anda harus melakukan hal berikut. Untuk mempelajari lebih lanjut tentang izin yang diperlukan untuk evaluasi model, lihat. Izin dan peran IAM layanan yang diperlukan untuk membuat pekerjaan evaluasi model

      1. Untuk menggunakan peran layanan Amazon Bedrock yang ada, pilih Gunakan peran yang ada. Jika tidak, gunakan Buat peran baru untuk menentukan detail peran IAM layanan baru Anda.

      2. Di Nama peran Layanan, tentukan nama peran IAM layanan Anda.

      3. Saat siap, pilih Buat peran untuk membuat peran IAM layanan baru.

  7. Lalu, pilih Selanjutnya.

  8. Di kartu Izin, tentukan yang berikut ini. Untuk mempelajari lebih lanjut tentang izin yang diperlukan untuk evaluasi model, lihat. Izin dan peran IAM layanan yang diperlukan untuk membuat pekerjaan evaluasi model

  9. IAMPeran alur kerja manusia - Tentukan peran SageMaker layanan yang memiliki izin yang diperlukan.

  10. Di Kartu tim kerja, tentukan yang berikut ini.

    Persyaratan pemberitahuan pekerja manusia

    Ketika Anda menambahkan pekerja manusia baru ke pekerjaan evaluasi model, mereka secara otomatis menerima email yang mengundang mereka untuk berpartisipasi dalam pekerjaan evaluasi model. Ketika Anda menambahkan pekerja manusia yang ada ke pekerjaan evaluasi model, Anda harus memberi tahu dan memberi mereka portal pekerja URL untuk pekerjaan evaluasi model. Pekerja yang ada tidak akan menerima pemberitahuan email otomatis bahwa mereka ditambahkan ke pekerjaan evaluasi model baru.

    1. Menggunakan menu tarik-turun Pilih tim, tentukan Buat tim kerja baru atau nama tim kerja yang ada.

    2. (Opsional) Jumlah pekerja per prompt - Perbarui jumlah pekerja yang mengevaluasi setiap prompt. Setelah tanggapan untuk setiap prompt ditinjau oleh jumlah pekerja yang Anda pilih, prompt dan tanggapannya akan dikeluarkan dari sirkulasi dari tim kerja. Laporan hasil akhir akan mencakup semua peringkat dari setiap pekerja.

    3. (Opsional) Email pekerja yang ada — Pilih ini untuk menyalin template email yang berisi portal pekerjaURL.

    4. (Opsional) Email pekerja baru - Pilih ini untuk melihat email yang diterima pekerja baru secara otomatis.

      penting

      Model bahasa besar diketahui kadang-kadang berhalusinasi dan menghasilkan konten beracun atau ofensif. Pekerja Anda mungkin diperlihatkan bahan beracun atau ofensif selama evaluasi ini. Pastikan Anda mengambil langkah-langkah yang tepat untuk melatih dan memberi tahu mereka sebelum mereka mengerjakan evaluasi. Mereka dapat menolak dan melepaskan tugas atau beristirahat selama evaluasi saat mengakses alat evaluasi manusia.

  11. Lalu, pilih Selanjutnya.

  12. Pada halaman Berikan instruksi, gunakan editor teks untuk memberikan instruksi untuk menyelesaikan tugas. Anda dapat melihat pratinjau UI evaluasi yang digunakan tim kerja Anda untuk mengevaluasi tanggapan, termasuk metrik, metode penilaian, dan instruksi Anda. Pratinjau ini didasarkan pada konfigurasi yang telah Anda buat untuk pekerjaan ini.

  13. Lalu, pilih Selanjutnya.

  14. Pada halaman Tinjau dan buat, Anda dapat melihat ringkasan opsi yang telah Anda pilih di langkah sebelumnya.

  15. Untuk memulai pekerjaan evaluasi model Anda, pilih Buat.

Setelah pekerjaan berhasil dimulai, status berubah menjadi Sedang berlangsung. Ketika pekerjaan telah selesai, status berubah menjadi Selesai. Sementara pekerjaan evaluasi model masih Dalam proses, Anda dapat memilih untuk menghentikan pekerjaan sebelum semua tanggapan model dievaluasi oleh tim kerja Anda. Untuk melakukannya, pilih Hentikan evaluasi pada halaman arahan evaluasi model. Ini akan mengubah Status pekerjaan evaluasi model menjadi Berhenti. Setelah pekerjaan evaluasi model berhasil dihentikan, Anda dapat menghapus pekerjaan evaluasi model.

Untuk mempelajari cara mengevaluasi, melihat, dan mengunduh hasil pekerjaan evaluasi model Anda, lihatHasil pekerjaan evaluasi model.