Evaluasi kinerja sumber daya Amazon Bedrock

Gunakan evaluasi Amazon Bedrock untuk mengevaluasi kinerja dan efektivitas model dan basis pengetahuan Amazon Bedrock, serta model dan sumber Retrieval Augmented Generation (RAG) di luar Amazon Bedrock. Amazon Bedrock dapat menghitung metrik kinerja seperti ketahanan semantik model dan kebenaran basis pengetahuan dalam mengambil informasi dan menghasilkan respons. Untuk evaluasi model, Anda juga dapat menggunakan tim pekerja manusia untuk menilai dan memberikan masukan mereka untuk evaluasi.

Evaluasi otomatis, termasuk evaluasi yang menggunakan Large Language Models (LLM), menghasilkan skor dan metrik yang dihitung yang membantu Anda menilai efektivitas model dan basis pengetahuan. Human-based evaluasi menggunakan tim orang yang memberikan peringkat dan preferensi mereka dalam kaitannya dengan metrik tertentu.

Ikhtisar: Pekerjaan evaluasi model terprogram

Pekerjaan evaluasi model terprogram memungkinkan Anda untuk dengan cepat mengevaluasi kemampuan model untuk melakukan tugas. Anda dapat menyediakan kumpulan data prompt kustom Anda sendiri yang telah disesuaikan dengan kasus penggunaan tertentu, atau Anda dapat menggunakan kumpulan data bawaan yang tersedia.

Ikhtisar: Pekerjaan evaluasi model yang menggunakan pekerja manusia

Pekerjaan evaluasi model yang menggunakan pekerja manusia memungkinkan Anda untuk membawa masukan manusia ke proses evaluasi model. Mereka bisa menjadi karyawan perusahaan Anda atau sekelompok ahli materi pelajaran dari industri Anda.

Ikhtisar: Pekerjaan evaluasi model yang menggunakan model juri

Pekerjaan evaluasi model yang menggunakan model hakim memungkinkan Anda untuk dengan cepat mengevaluasi tanggapan model melalui menggunakan LLM kedua. LLM kedua menilai respons dan memberikan penjelasan untuk setiap respons.

Ikhtisar evaluasi RAG yang menggunakan Large Language Models (LLM)

LLM-based evaluasi menghitung metrik kinerja untuk basis pengetahuan. Metrik mengungkapkan apakah sumber RAG atau Pangkalan Pengetahuan Amazon Bedrock dapat mengambil informasi yang sangat relevan dan menghasilkan respons yang berguna dan sesuai. Anda menyediakan kumpulan data yang berisi petunjuk atau kueri pengguna untuk mengevaluasi cara basis pengetahuan mengambil informasi dan menghasilkan tanggapan untuk kueri yang diberikan. Dataset juga harus menyertakan 'kebenaran dasar' atau teks dan tanggapan yang diambil yang diharapkan untuk kueri sehingga evaluasi dapat memeriksa apakah basis pengetahuan Anda selaras dengan apa yang diharapkan.

Gunakan topik berikut untuk mempelajari lebih lanjut tentang membuat pekerjaan evaluasi model pertama Anda.

Dukungan pekerjaan evaluasi model menggunakan jenis model Amazon Bedrock berikut:

Model fondasi
Model Amazon Bedrock Marketplace
Model pondasi yang disesuaikan
Model pondasi yang diimpor
Router yang cepat
Model yang telah Anda beli Provisioned Throughput

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Hapus basis pengetahuan

Daerah dan model yang Didukung