Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Anda dapat membuat pekerjaan evaluasi model menggunakan AWS Management Console, AWS CLI, atau AWS SDK yang didukung. Gunakan topik ini untuk mempelajari cara membuat pekerjaan evaluasi model yang menggunakan model sebagai hakim.
Pekerjaan ini membutuhkan dua model yang berbeda. Kedua model harus tersedia dalam hal yang sama Wilayah AWS, dan Anda harus memiliki akses ke mereka di AWS akun Anda. Untuk mempelajari lebih lanjut tentang mengakses model, lihatAkses model fondasi Amazon Bedrock.
Model generator yang didukung — model yang akan melakukan inferensi berdasarkan permintaan Anda
-
Model pondasi — Informasi model pondasi Amazon Bedrock
-
Model pondasi yang disesuaikan - Sesuaikan model Anda untuk meningkatkan kinerjanya untuk kasus penggunaan Anda
-
Model yang diimpor - Impor model yang disesuaikan ke Amazon Bedrock
-
Model dengan Throughput yang Disediakan - Tingkatkan kapasitas pemanggilan model dengan Provisioned Throughput di Amazon Bedrock
Model evaluator yang didukung — model yang akan meninjau penilaian output model generator Anda
-
Anda memerlukan akses ke setidaknya satu dari model yayasan Amazon Bedrock berikut. Ini adalah model juri yang tersedia. Untuk mempelajari lebih lanjut tentang mendapatkan akses ke model dan ketersediaan wilayah, lihatAkses model fondasi Amazon Bedrock.
-
Mistral Large –
mistral.mistral-large-2402-v1:0
-
Anthropic Claude 3.5 Sonnet –
anthropic.claude-3-5-sonnet-20240620-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-
Gunakan tab berikut untuk mempelajari cara membuat CreateEvaluation
. Gunakan inferenceConfig
untuk menentukan model generator yang ingin Anda gunakan dalam pekerjaan evaluasi model. Gunakan evaluatorModelConfig
untuk menentukan model evaluator yang didukung.
Contoh berikut menunjukkan cara membuat create-evaluation-job
permintaan menggunakan AWS CLI. Gunakan tabel yang ditemukan dalam metrik model untuk model sebagai hakim untuk melihat cara memformat dengan benar. metricNames
Pastikan itu evaluationContext
ditentukan sebagaiModel
.
aws bedrock create-evaluation-job
{
"jobName": "model-eval-llmaj"
,
"roleArn": "arn:aws:iam::111122223333
:role/Amazon-Bedrock-ModelAsAJudgeTest",
"evaluationContext": "Model"
,
"evaluationConfig": {
"automated": {
"datasetMetricConfigs": [
{
"taskType": "General",
"dataset": {
"name": "text_dataset",
"datasetLocation": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
}
},
"metricNames": [
"Builtin.Correctness",
"Builtin.Completeness"
]
}
],
"evaluatorModelConfig": {
"bedrockEvaluatorModels": [
{
"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
}
]
}
}
},
"inferenceConfig": {
"models": [
{
"bedrockModel": {
"modelIdentifier": "anthropic.claude-v2",
"inferenceParams": "{}"
}
}
]
},
"outputDataConfig": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
}
}