選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

在 Amazon Bedrock 中建立使用判斷模型的模型評估任務

焦點模式
在 Amazon Bedrock 中建立使用判斷模型的模型評估任務 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以使用 AWS Management Console AWS CLI或支援的 AWS SDK 建立模型評估任務。使用此主題,了解如何建立使用模型做為判斷的模型評估任務。

此任務需要兩種不同的模型。這兩種模型都必須在相同的 中可用 AWS 區域,而且您必須在 AWS 帳戶中存取它們。若要進一步了解存取模型,請參閱存取 Amazon Bedrock 基礎模型

支援的產生器模型 – 將根據您的提示執行推論的模型
支援的評估器模型 – 將檢閱產生器模型輸出評分的模型
  • 您需要存取下列至少一個 Amazon Bedrock 基礎模型。這些是可用的判斷模型。若要進一步了解如何存取模型和區域可用性,請參閱存取 Amazon Bedrock 基礎模型

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

使用下列索引標籤來了解如何建立 CreateEvaluation。使用 inferenceConfig指定要在模型評估任務中使用的產生器模型。使用 evaluatorModelConfig指定支援的評估器模型。

AWS CLI

下列範例示範如何使用 提出create-evaluation-job請求 AWS CLI。使用模型指標中找到的資料表做為判斷,以查看如何正確格式化 metricNames。確定 evaluationContext 指定為 Model

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }
SDK for Python

當您在 Amazon Bedrock 主控台之外建立以人類為基礎的模型評估任務時,您需要建立 Amazon SageMaker AI 流程定義 ARN。

流程定義 ARN 是定義模型評估任務工作流程的地方。流程定義用於定義工作者界面,以及您想要指派給任務的工作團隊,以及連線到 Amazon Bedrock。

對於開始使用 Amazon Bedrock API 操作的模型評估任務,您必須使用 AWS CLI 或支援的 AWS SDK 建立流程定義 ARN。若要進一步了解流程定義的運作方式,並以程式設計方式建立流程,請參閱 SageMaker AI 開發人員指南中的建立人工審核工作流程 (API)

在 中CreateFlowDefinition,您必須指定 AWS/Bedrock/Evaluation做為 的輸入AwsManagedHumanLoopRequestSource。Amazon Bedrock 服務角色也必須具有存取流程定義輸出儲存貯體的許可。

以下是使用 AWS CLI的範例請求。在請求中, HumanTaskUiArn 是 SageMaker AI 擁有的 ARN。在 ARN 中,您只能修改 AWS 區域。

aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:AWS 區域:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'

下列程式碼範例示範如何建立模型評估任務,透過適用於 Python 的 SDK 使用人力工作者。

import boto3 client = boto3.client('bedrock') job_request = client.create_evaluation_job( jobName="111122223333-job-01", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role", inferenceConfig={ ## You must specify and array of models "models": [ { "bedrockModel": { "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1", "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}" } }, { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}" } } ] }, outputDataConfig={ "s3Uri":"s3://job-bucket/outputs/" }, evaluationConfig={ "human": { "humanWorkflowConfig": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn", "instructions": "some human eval instruction" }, "customMetrics": [ { "name": "IndividualLikertScale", "description": "testing", "ratingMethod": "IndividualLikertScale" } ], "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "Custom_Dataset1", "datasetLocation": { "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl" } }, "metricNames": [ "IndividualLikertScale" ] } ] } } ) print(job_request)

下列範例示範如何使用 提出create-evaluation-job請求 AWS CLI。使用模型指標中找到的資料表做為判斷,以查看如何正確格式化 metricNames。確定 evaluationContext 指定為 Model

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }

下一個主題:

列出任務

上一個主題:

Mistral Large
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。