Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Evaluasi kinerja sumber daya Amazon Bedrock

Mode fokus
Evaluasi kinerja sumber daya Amazon Bedrock - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

catatan

Pekerjaan evaluasi model yang menggunakan model juri dan pekerjaan evaluasi Pangkalan Pengetahuan Amazon Bedrock sedang dalam pratinjau.

Gunakan evaluasi Amazon Bedrock untuk mengevaluasi kinerja dan efektivitas model dan basis pengetahuan Amazon Bedrock. Amazon Bedrock dapat menghitung metrik kinerja seperti ketahanan semantik model dan kebenaran basis pengetahuan dalam mengambil informasi dan menghasilkan respons. Untuk evaluasi model, Anda juga dapat memanfaatkan tim pekerja manusia untuk menilai dan memberikan masukan mereka untuk evaluasi.

Evaluasi otomatis, termasuk evaluasi yang memanfaatkan Large Language Models (LLMs), menghasilkan skor dan metrik yang dihitung yang membantu Anda menilai efektivitas model dan basis pengetahuan. Evaluasi berbasis manusia menggunakan tim orang yang memberikan peringkat dan preferensi mereka dalam kaitannya dengan metrik tertentu.

Ikhtisar: Pekerjaan evaluasi model otomatis

Pekerjaan evaluasi model otomatis memungkinkan Anda mengevaluasi kemampuan model dengan cepat untuk melakukan tugas. Anda dapat menyediakan kumpulan data prompt kustom Anda sendiri yang telah disesuaikan dengan kasus penggunaan tertentu, atau Anda dapat menggunakan kumpulan data bawaan yang tersedia.

Ikhtisar: Pekerjaan evaluasi model yang menggunakan pekerja manusia

Pekerjaan evaluasi model yang menggunakan pekerja manusia memungkinkan Anda untuk membawa masukan manusia ke proses evaluasi model. Mereka bisa menjadi karyawan perusahaan Anda atau sekelompok ahli materi pelajaran dari industri Anda.

Ikhtisar: Pekerjaan evaluasi model yang menggunakan model hakim

Pekerjaan evaluasi model yang menggunakan model hakim memungkinkan Anda untuk dengan cepat mengevaluasi tanggapan model melalui menggunakan LLM kedua. LLM kedua menilai respons dan memberikan penjelasan untuk setiap respons.

Ikhtisar evaluasi basis pengetahuan yang menggunakan Model Bahasa Besar () LLMs

Evaluasi berbasis LLM menghitung metrik kinerja untuk basis pengetahuan. Metrik mengungkapkan apakah basis pengetahuan dapat mengambil informasi yang sangat relevan dan menghasilkan respons yang berguna dan sesuai. Anda menyediakan kumpulan data yang berisi petunjuk atau kueri pengguna untuk mengevaluasi cara basis pengetahuan mengambil informasi dan menghasilkan tanggapan untuk kueri yang diberikan. Dataset juga harus menyertakan 'kebenaran dasar' atau teks dan tanggapan yang diambil yang diharapkan untuk kueri sehingga evaluasi dapat memeriksa apakah basis pengetahuan Anda selaras dengan apa yang diharapkan.

Gunakan topik berikut untuk mempelajari lebih lanjut tentang membuat pekerjaan evaluasi model pertama Anda.

Untuk membuat pekerjaan evaluasi model, Anda harus memiliki akses ke setidaknya satu model Amazon Bedrock. Dukungan pekerjaan evaluasi model menggunakan jenis model berikut:

  • Model pondasi

  • Model Amazon Bedrock Marketplace

  • Model pondasi yang disesuaikan

  • Model pondasi yang diimpor

  • Router yang cepat

  • Model yang telah Anda beli Provisioned Throughput

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.