本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以使用 AWS Management Console AWS CLI或支援的 AWS SDK 建立模型評估任務。使用此主題,了解如何建立使用模型做為判斷的模型評估任務。
此任務需要兩種不同的模型。這兩種模型都必須在相同的 中可用 AWS 區域,而且您必須在 AWS 帳戶中存取它們。若要進一步了解存取模型,請參閱存取 Amazon Bedrock 基礎模型。
支援的產生器模型 – 將根據您的提示執行推論的模型
-
基礎模型 – Amazon Bedrock 基礎模型資訊
-
自訂的基礎模型 – 自訂您的模型,以改善其針對使用案例的效能
-
匯入的模型 – 將自訂模型匯入 Amazon Bedrock
-
具有佈建輸送量的模型 – 使用 Amazon Bedrock 中的佈建輸送量來增加模型調用容量
支援的評估器模型 – 將檢閱產生器模型輸出評分的模型
-
您需要存取下列至少一個 Amazon Bedrock 基礎模型。這些是可用的判斷模型。若要進一步了解如何存取模型和區域可用性,請參閱存取 Amazon Bedrock 基礎模型。
-
Mistral Large –
mistral.mistral-large-2402-v1:0
-
Anthropic Claude 3.5 Sonnet –
anthropic.claude-3-5-sonnet-20240620-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-
使用下列索引標籤來了解如何建立 CreateEvaluation
。使用 inferenceConfig
指定要在模型評估任務中使用的產生器模型。使用 evaluatorModelConfig
指定支援的評估器模型。
下列範例示範如何使用 提出create-evaluation-job
請求 AWS CLI。使用模型指標中找到的資料表做為判斷,以查看如何正確格式化 metricNames
。確定 evaluationContext
指定為 Model
。
aws bedrock create-evaluation-job
{
"jobName": "model-eval-llmaj"
,
"roleArn": "arn:aws:iam::111122223333
:role/Amazon-Bedrock-ModelAsAJudgeTest",
"evaluationContext": "Model"
,
"evaluationConfig": {
"automated": {
"datasetMetricConfigs": [
{
"taskType": "General",
"dataset": {
"name": "text_dataset",
"datasetLocation": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
}
},
"metricNames": [
"Builtin.Correctness",
"Builtin.Completeness"
]
}
],
"evaluatorModelConfig": {
"bedrockEvaluatorModels": [
{
"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
}
]
}
}
},
"inferenceConfig": {
"models": [
{
"bedrockModel": {
"modelIdentifier": "anthropic.claude-v2",
"inferenceParams": "{}"
}
}
]
},
"outputDataConfig": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
}
}