翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
モデル評価ジョブは AWS Management Console、、 AWS CLI、またはサポートされている AWS SDK を使用して作成できます。このトピックでは、モデルを審査員として使用するモデル評価ジョブを作成する方法について説明します。
このジョブには 2 つの異なるモデルが必要です。両方のモデルが同じ で使用可能で AWS リージョン、 AWS アカウントでアクセスできる必要があります。モデルへのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models。
サポートされているジェネレーターモデル – プロンプトに基づいて推論を実行するモデル
-
基盤モデル – Amazon Bedrock 基盤モデルの情報
-
カスタマイズされた基盤モデル – モデルをカスタマイズしてユースケースのパフォーマンスを向上させる
-
インポートされたモデル – Import a customized model into Amazon Bedrock
-
プロビジョンドスループットのモデル – Amazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やす
サポートされている評価者モデル – ジェネレーターモデルの出力のスコアリングを確認するモデル
-
次の Amazon Bedrock 基盤モデルの少なくとも 1 つにアクセスする必要があります。これらは利用可能な判事モデルです。モデルとリージョンの可用性へのアクセスの詳細については、「」を参照してくださいAccess Amazon Bedrock foundation models。
-
Mistral Large –
mistral.mistral-large-2402-v1:0
-
Anthropic Claude 3.5 Sonnet –
anthropic.claude-3-5-sonnet-20240620-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-
次のタブを使用して、 を作成する方法を学習しますCreateEvaluation
。inferenceConfig
を使用して、モデル評価ジョブで使用するジェネレーターモデルを指定します。evaluatorModelConfig
を使用して、サポートされている評価者モデルを指定します。
次の例は、 を使用してcreate-evaluation-job
リクエストを行う方法を示しています AWS CLI。モデルのモデルメトリクスにあるテーブルを判事として使用して、 を正しくフォーマットする方法を確認しますmetricNames
。evaluationContext
が として指定されていることを確認しますModel
。
aws bedrock create-evaluation-job
{
"jobName": "model-eval-llmaj"
,
"roleArn": "arn:aws:iam::111122223333
:role/Amazon-Bedrock-ModelAsAJudgeTest",
"evaluationContext": "Model"
,
"evaluationConfig": {
"automated": {
"datasetMetricConfigs": [
{
"taskType": "General",
"dataset": {
"name": "text_dataset",
"datasetLocation": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/input_datasets/text_dataset_input.jsonl"
}
},
"metricNames": [
"Builtin.Correctness",
"Builtin.Completeness"
]
}
],
"evaluatorModelConfig": {
"bedrockEvaluatorModels": [
{
"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
}
]
}
}
},
"inferenceConfig": {
"models": [
{
"bedrockModel": {
"modelIdentifier": "anthropic.claude-v2",
"inferenceParams": "{}"
}
}
]
},
"outputDataConfig": {
"s3Uri": "s3://bedrock-model-as-a-judge-test-1/output_data/"
}
}