在 Amazon Bedrock 中建立使用判斷模型的模型評估任務

RSS

焦點模式

在 Amazon Bedrock 中建立使用判斷模型的模型評估任務 - Amazon Bedrock

您可以使用 AWS Management Console AWS CLI或支援的 AWS SDK 建立模型評估任務。使用此主題，了解如何建立使用模型做為判斷的模型評估任務。

此任務需要兩種不同的模型。這兩種模型都必須在相同的中可用 AWS 區域，而且您必須在 AWS 帳戶中存取它們。若要進一步了解存取模型，請參閱存取 Amazon Bedrock 基礎模型。

支援的產生器模型 – 將根據您的提示執行推論的模型

基礎模型 – Amazon Bedrock 基礎模型資訊
自訂的基礎模型 – 自訂您的模型，以改善其針對使用案例的效能
匯入的模型 – 將自訂模型匯入 Amazon Bedrock
具有佈建輸送量的模型 – 使用 Amazon Bedrock 中的佈建輸送量來增加模型調用容量

支援的評估器模型 – 將檢閱產生器模型輸出評分的模型

您需要存取下列至少一個 Amazon Bedrock 基礎模型。這些是可用的判斷模型。若要進一步了解如何存取模型和區域可用性，請參閱存取 Amazon Bedrock 基礎模型。
- Mistral Large – mistral.mistral-large-2402-v1:0
- Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0
- Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
- Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

使用下列索引標籤來了解如何建立 CreateEvaluation。使用 inferenceConfig指定要在模型評估任務中使用的產生器模型。使用 evaluatorModelConfig指定支援的評估器模型。

AWS CLI

下列範例示範如何使用提出create-evaluation-job請求 AWS CLI。使用模型指標中找到的資料表做為判斷，以查看如何正確格式化 metricNames。確定 evaluationContext 指定為 Model。


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

SDK for Python

當您在 Amazon Bedrock 主控台之外建立以人類為基礎的模型評估任務時，您需要建立 Amazon SageMaker AI 流程定義 ARN。

流程定義 ARN 是定義模型評估任務工作流程的地方。流程定義用於定義工作者界面，以及您想要指派給任務的工作團隊，以及連線到 Amazon Bedrock。

對於開始使用 Amazon Bedrock API 操作的模型評估任務，您必須使用 AWS CLI 或支援的 AWS SDK 建立流程定義 ARN。若要進一步了解流程定義的運作方式，並以程式設計方式建立流程，請參閱 SageMaker AI 開發人員指南中的建立人工審核工作流程 (API)。

在中CreateFlowDefinition，您必須指定 AWS/Bedrock/Evaluation做為的輸入AwsManagedHumanLoopRequestSource。Amazon Bedrock 服務角色也必須具有存取流程定義輸出儲存貯體的許可。

以下是使用 AWS CLI的範例請求。在請求中， HumanTaskUiArn 是 SageMaker AI 擁有的 ARN。在 ARN 中，您只能修改 AWS 區域。


aws sagemaker create-flow-definition --cli-input-json '
{
	"FlowDefinitionName": "human-evaluation-task01",
	"HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },
    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:AWS 區域:111122223333:workteam/private-crowd/my-workteam",
		## The Task UI ARN is provided by the service team, you can only modify the AWS Region.
		"HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation"
		"TaskTitle": "Human review tasks",
		"TaskDescription": "Provide a real good answer",
		"TaskCount": 1,
		"TaskAvailabilityLifetimeInSeconds": 864000,
		"TaskTimeLimitInSeconds": 3600,
		"TaskKeywords": [
		    "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://your-output-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'

下列程式碼範例示範如何建立模型評估任務，透過適用於 Python 的 SDK 使用人力工作者。


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
                }
            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)

anchor anchor


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Mistral Large

列出任務

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

在 Amazon Bedrock 中建立使用判斷模型的模型評估任務

支援的產生器模型 – 將根據您的提示執行推論的模型

支援的評估器模型 – 將檢閱產生器模型輸出評分的模型

Related resources

此頁面是否有幫助？

Related resources

下一個主題：

上一個主題：

需要協助？