モデルを審査員として使用するモデル評価ジョブのカスタムプロンプトデータセットの要件 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデルを審査員として使用するモデル評価ジョブのカスタムプロンプトデータセットの要件

モデルを判断として使用するモデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルで推論中に使用されます。このプロンプトデータセットは、自動モデル評価ジョブと同じ形式を使用します。CorrectnessBuiltin.Correctness) メトリクスまたは Completeness () Builtin.Completenessメトリクスを使用するときに、一部のキーと値のペアが必要になりました。

モデルを審査員として使用するモデル評価ジョブでカスタムプロンプトデータセットを作成する必要があります。カスタムプロンプトデータセットは Amazon S3 に保存し、JSON Lines 形式と .jsonl ファイル拡張子を使用する必要があります。各行は有効な JSON オブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。

コンソールを使用して作成されたジョブの場合、S3 バケットの Cross Origin Resource Sharing (CORS) 設定を更新する必要があります。必要な CORS アクセス許可の詳細については、「S3 バケットで必要な Cross Origin Resource Sharing (CORS) アクセス許可」を参照してください。

モデル評価ジョブのプロンプトデータセットで使用されるキーと値のペアは、モデルを審査者として使用します。
  • prompt — 以下のタスクの入力を示すのに必要です。

    • 一般的なテキスト生成でモデルが応答すべきプロンプト。

    • 質問回答タスクタイプでモデルが回答すべき質問。

    • テキスト要約タスクでモデルが要約すべきテキスト。

    • 分類タスクでモデルが分類すべきテキスト。

  • referenceResponse – 完全性と正確性メトリクスのグラウンドトゥルースレスポンスを示すために必要です。

    • 正しいレスポンス。

    • 完全なレスポンス。

  • category — (オプション) カテゴリごとに報告される評価スコアを生成します。

次のプロンプトが展開され、わかりやすくなりました。実際のプロンプトデータセットでは、各行 (プロンプト) が有効な JSON オブジェクトである必要があります。

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }