Pilih model berkinerja terbaik menggunakan evaluasi Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pilih model berkinerja terbaik menggunakan evaluasi Amazon Bedrock

Amazon Bedrock mendukung pekerjaan evaluasi model. Hasil pekerjaan evaluasi model memungkinkan Anda membandingkan output profil model atau inferensi, dan kemudian memilih model yang paling cocok untuk aplikasi AI generatif hilir Anda.

Pekerjaan evaluasi model mendukung kasus penggunaan umum untuk model bahasa besar (LLMs) seperti pembuatan teks, klasifikasi teks, penjawab pertanyaan, dan ringkasan teks.

Untuk mengevaluasi kinerja model untuk pekerjaan evaluasi model otomatis, Anda dapat menggunakan kumpulan data prompt bawaan atau kumpulan data prompt Anda sendiri. Untuk pekerjaan evaluasi model yang menggunakan pekerja manusia, Anda harus menggunakan dataset Anda sendiri.

Anda dapat memilih untuk membuat pekerjaan evaluasi model otomatis atau pekerjaan evaluasi model yang menggunakan tenaga kerja manusia.

Ikhtisar: Pekerjaan evaluasi model otomatis

Pekerjaan evaluasi model otomatis memungkinkan Anda mengevaluasi kemampuan model dengan cepat untuk melakukan tugas. Anda dapat menyediakan kumpulan data prompt kustom Anda sendiri yang telah disesuaikan dengan kasus penggunaan tertentu, atau Anda dapat menggunakan kumpulan data bawaan yang tersedia.

Ikhtisar: Pekerjaan evaluasi model yang menggunakan pekerja manusia

Pekerjaan evaluasi model yang menggunakan pekerja manusia memungkinkan Anda untuk membawa masukan manusia ke proses evaluasi model. Mereka bisa menjadi karyawan perusahaan Anda atau sekelompok ahli materi pelajaran dari industri Anda.

Bagian ini menunjukkan cara membuat dan mengelola pekerjaan evaluasi model, dan jenis metrik kinerja yang dapat Anda gunakan. Bagian ini juga menjelaskan kumpulan data bawaan yang tersedia dan cara menentukan kumpulan data Anda sendiri.