Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Amazon Bedrock で審査員モデルを使用するモデル評価ジョブを作成する

フォーカスモード
Amazon Bedrock で審査員モデルを使用するモデル評価ジョブを作成する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデル評価ジョブは AWS Management Console、、 AWS CLI、またはサポートされている AWS SDK を使用して作成できます。このトピックでは、モデルを審査員として使用するモデル評価ジョブを作成する方法について説明します。

このジョブには 2 つの異なるモデルが必要です。両方のモデルが同じ で使用可能で AWS リージョン、 AWS アカウントでアクセスできる必要があります。モデルへのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models

サポートされているジェネレーターモデル – プロンプトに基づいて推論を実行するモデル
サポートされている評価者モデル – ジェネレーターモデルの出力のスコアリングを確認するモデル
  • 次の Amazon Bedrock 基盤モデルの少なくとも 1 つにアクセスする必要があります。これらは利用可能な判事モデルです。モデルとリージョンの可用性へのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

次のタブを使用して、 を作成する方法を学習しますCreateEvaluationinferenceConfig を使用して、モデル評価ジョブで使用するジェネレーターモデルを指定します。evaluatorModelConfig を使用して、サポートされている評価者モデルを指定します。

AWS CLI

次の例は、 を使用してcreate-evaluation-jobリクエストを行う方法を示しています AWS CLI。モデルのモデルメトリクスにあるテーブルを判事として使用して、 を正しくフォーマットする方法を確認しますmetricNamesevaluationContext が として指定されていることを確認しますModel

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }
SDK for Python

Amazon Bedrock コンソールの外部で人間ベースのモデル評価ジョブを作成する場合は、Amazon SageMaker AI フロー定義 ARN を作成する必要があります。

フロー定義 ARN では、モデル評価ジョブのワークフローが定義されます。フロー定義は、タスクに割り当てるワーカーインターフェイスと作業チームを定義し、Amazon Bedrock に接続するために使用されます。

Amazon Bedrock API オペレーションを使用して開始されたモデル評価ジョブの場合、 AWS CLI またはサポートされている AWS SDK を使用してフロー定義 ARN を作成する必要があります。フロー定義の仕組みとプログラムによる作成の詳細については、SageMaker AI デベロッパーガイド」の「人間によるレビューワークフロー (API) の作成」を参照してください。

CreateFlowDefinition では、AwsManagedHumanLoopRequestSource への入力として AWS/Bedrock/Evaluation を指定する必要があります。Amazon Bedrock サービスロールには、フロー定義の出力バケットにアクセスするためのアクセス許可も必要です。

以下は、 AWS CLIを使ったリクエストの例です。リクエストでは、 HumanTaskUiArnは SageMaker AI 所有の ARN です。ARN では、 AWS リージョンのみ変更できます。

aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:AWS リージョン:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'

次のコード例は、SDK for Python 経由で人間の作業者を使用するモデル評価ジョブの作成方法を示しています。

import boto3 client = boto3.client('bedrock') job_request = client.create_evaluation_job( jobName="111122223333-job-01", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/example-human-eval-api-role", inferenceConfig={ ## You must specify and array of models "models": [ { "bedrockModel": { "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1", "inferenceParams":"{\"temperature\":\"0.0\", \"topP\":\"1\", \"maxTokenCount\":\"512\"}" } }, { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"temperature\":\"0.25\",\"top_p\":\"0.25\",\"max_tokens_to_sample\":\"256\",\"top_k\":\"1\"}" } } ] }, outputDataConfig={ "s3Uri":"s3://job-bucket/outputs/" }, evaluationConfig={ "human": { "humanWorkflowConfig": { "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/example-workflow-arn", "instructions": "some human eval instruction" }, "customMetrics": [ { "name": "IndividualLikertScale", "description": "testing", "ratingMethod": "IndividualLikertScale" } ], "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "Custom_Dataset1", "datasetLocation": { "s3Uri": "s3://job-bucket/custom-datasets/custom-trex.jsonl" } }, "metricNames": [ "IndividualLikertScale" ] } ] } } ) print(job_request)

次の例は、 を使用してcreate-evaluation-jobリクエストを行う方法を示しています AWS CLI。モデルのモデルメトリクスにあるテーブルを判事として使用して、 を正しくフォーマットする方法を確認しますmetricNamesevaluationContext が として指定されていることを確認しますModel

aws bedrock create-evaluation-job
{ "jobName": "model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationContext": "Model", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{}" } } ] }, "outputDataConfig": { "s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/" } }
プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.