モデルを審査員として使用するモデル評価ジョブのカスタムプロンプトデータセットの要件

モデルを判断として使用するモデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルで推論中に使用されます。このプロンプトデータセットは、自動モデル評価ジョブと同じ形式を使用します。Correctness（Builtin.Correctness) メトリクスまたは Completeness () Builtin.Completenessメトリクスを使用するときに、一部のキーと値のペアが必要になりました。

モデルを審査員として使用するモデル評価ジョブでカスタムプロンプトデータセットを作成する必要があります。カスタムプロンプトデータセットは Amazon S3 に保存し、JSON Lines 形式と .jsonl ファイル拡張子を使用する必要があります。各行は有効な JSON オブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。

コンソールを使用して作成されたジョブの場合、S3 バケットの Cross Origin Resource Sharing (CORS) 設定を更新する必要があります。必要な CORS アクセス許可の詳細については、「S3 バケットで必要な Cross Origin Resource Sharing (CORS) アクセス許可」を参照してください。

モデル評価ジョブのプロンプトデータセットで使用されるキーと値のペアは、モデルを審査者として使用します。

prompt — 以下のタスクの入力を示すのに必要です。
- 一般的なテキスト生成でモデルが応答すべきプロンプト。
- 質問回答タスクタイプでモデルが回答すべき質問。
- テキスト要約タスクでモデルが要約すべきテキスト。
- 分類タスクでモデルが分類すべきテキスト。
referenceResponse – 完全性と正確性メトリクスのグラウンドトゥルースレスポンスを示すために必要です。
- 正しいレスポンス。
- 完全なレスポンス。
category — (オプション) カテゴリごとに報告される評価スコアを生成します。

次のプロンプトが展開され、わかりやすくなりました。実際のプロンプトデータセットでは、各行 (プロンプト) が有効な JSON オブジェクトである必要があります。


{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ジョブの作成

評価者プロンプト