Amazon Bedrock で審査員モデルを使用するモデル評価ジョブを作成する

フォーカスモード

Amazon Bedrock で審査員モデルを使用するモデル評価ジョブを作成する - Amazon Bedrock

モデル評価ジョブは AWS Management Console、、 AWS CLI、またはサポートされている AWS SDK を使用して作成できます。このトピックでは、モデルを審査員として使用するモデル評価ジョブを作成する方法について説明します。

このジョブには 2 つの異なるモデルが必要です。両方のモデルが同じで使用可能で AWS リージョン、 AWS アカウントでアクセスできる必要があります。モデルへのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models。

サポートされているジェネレーターモデル – プロンプトに基づいて推論を実行するモデル

基盤モデル – Amazon Bedrock 基盤モデルの情報
カスタマイズされた基盤モデル – モデルをカスタマイズしてユースケースのパフォーマンスを向上させる
インポートされたモデル – Import a customized model into Amazon Bedrock
プロビジョンドスループットのモデル – Amazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やす

サポートされている評価者モデル – ジェネレーターモデルの出力のスコアリングを確認するモデル

次の Amazon Bedrock 基盤モデルの少なくとも 1 つにアクセスする必要があります。これらは利用可能な判事モデルです。モデルとリージョンの可用性へのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models。
- Mistral Large – mistral.mistral-large-2402-v1:0
- Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0
- Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
- Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

次のタブを使用して、を作成する方法を学習しますCreateEvaluation。inferenceConfig を使用して、モデル評価ジョブで使用するジェネレーターモデルを指定します。evaluatorModelConfig を使用して、サポートされている評価者モデルを指定します。

AWS CLI

次の例は、を使用してcreate-evaluation-jobリクエストを行う方法を示しています AWS CLI。モデルのモデルメトリクスにあるテーブルを判事として使用して、を正しくフォーマットする方法を確認しますmetricNames。evaluationContext がとして指定されていることを確認しますModel。


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

SDK for Python

Amazon Bedrock コンソールの外部で人間ベースのモデル評価ジョブを作成する場合は、Amazon SageMaker AI フロー定義 ARN を作成する必要があります。

フロー定義 ARN では、モデル評価ジョブのワークフローが定義されます。フロー定義は、タスクに割り当てるワーカーインターフェイスと作業チームを定義し、Amazon Bedrock に接続するために使用されます。

Amazon Bedrock API オペレーションを使用して開始されたモデル評価ジョブの場合、 AWS CLI またはサポートされている AWS SDK を使用してフロー定義 ARN を作成する必要があります。フロー定義の仕組みとプログラムによる作成の詳細については、SageMaker AI デベロッパーガイド」の「人間によるレビューワークフロー (API) の作成」を参照してください。

CreateFlowDefinition では、AwsManagedHumanLoopRequestSource への入力として AWS/Bedrock/Evaluation を指定する必要があります。Amazon Bedrock サービスロールには、フロー定義の出力バケットにアクセスするためのアクセス許可も必要です。

以下は、 AWS CLIを使ったリクエストの例です。リクエストでは、 HumanTaskUiArnは SageMaker AI 所有の ARN です。ARN では、 AWS リージョンのみ変更できます。


aws sagemaker create-flow-definition --cli-input-json '
{
	"FlowDefinitionName": "human-evaluation-task01",
	"HumanLoopRequestSource": {
        "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation"
    },
    "HumanLoopConfig": {
		"WorkteamArn": "arn:aws:sagemaker:AWS リージョン:111122223333:workteam/private-crowd/my-workteam",
		## The Task UI ARN is provided by the service team, you can only modify the AWS Region.
		"HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation"
		"TaskTitle": "Human review tasks",
		"TaskDescription": "Provide a real good answer",
		"TaskCount": 1,
		"TaskAvailabilityLifetimeInSeconds": 864000,
		"TaskTimeLimitInSeconds": 3600,
		"TaskKeywords": [
		    "foo"
        ]
    },
    "OutputConfig": {
        "S3OutputPath": "s3://your-output-bucket"
    },
    "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn"
}'

次のコード例は、SDK for Python 経由で人間の作業者を使用するモデル評価ジョブの作成方法を示しています。


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="111122223333-job-01",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role",
    inferenceConfig={
        ## You must specify and array of models
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}"
                }

            },
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}"
                }
            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://job-bucket/outputs/"
    },
    evaluationConfig={
        "human": {
        "humanWorkflowConfig": {
            "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn",
            "instructions": "some human eval instruction"
        },
        "customMetrics": [
            {
                "name": "IndividualLikertScale",
                "description": "testing",
                "ratingMethod": "IndividualLikertScale"
            }
        ],
        "datasetMetricConfigs": [
            {
                "taskType": "Summarization",
                "dataset": {
                    "name": "Custom_Dataset1",
                    "datasetLocation": {
                        "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl"
                    }
                },
                "metricNames": [
                  "IndividualLikertScale"
                ]
            }
        ]
      }

    }
)

print(job_request)

anchor anchor


aws bedrock create-evaluation-job


{
	"jobName": "model-eval-llmaj",
	"roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
	"evaluationContext": "Model",
	"evaluationConfig": {
		"automated": {
			"datasetMetricConfigs": [
	{
	"taskType": "General",
	"dataset": {
	"name": "text_dataset",
	"datasetLocation": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
	}
	},
	"metricNames": [
	"Builtin.Correctness",
	"Builtin.Completeness"
	]
	}
	],
	"evaluatorModelConfig": {
	"bedrockEvaluatorModels": [
	{
	"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
	}
	]
	}
	}
	},
	"inferenceConfig": {
	"models": [
	{
	"bedrockModel": {
	"modelIdentifier": "anthropic.claude-v2",
	"inferenceParams": "{}"
	}
	}
	]
	},
	"outputDataConfig": {
	"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
	}
	}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Mistral Large

ジョブを一覧表示する

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

Amazon Bedrock で審査員モデルを使用するモデル評価ジョブを作成する

サポートされているジェネレーターモデル – プロンプトに基づいて推論を実行するモデル

サポートされている評価者モデル – ジェネレーターモデルの出力のスコアリングを確認するモデル

Related resources

このページは役に立ちましたか?

Related resources

次のトピック

前のトピック:

ヘルプが必要ですか?