Use prompt datasets for model evaluation in Amazon Bedrock

自動モデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルとの推論中に使用されます。Amazon Bedrock には、自動モデル評価に使用できるデータセットが組み込まれています。また、独自のプロンプトデータセットを持ち込むこともできます。

以下のセクションでは、使用可能な組み込みプロンプトデータセットについて説明します。また、カスタムプロンプトデータセットの作成についても説明します。

Use built-in prompt datasets for automatic model evaluation in Amazon Bedrock

Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めます。

自動モデル評価ジョブを作成して [タスクタイプ] を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「Model evaluation task types in Amazon Bedrock」を参照してください。

オープンエンド言語生成データセットのバイアス (BOLD）: オープンエンド言語生成データセットのバイアス (BOLD) は、一般的なテキスト生成の公平性を評価するデータセットで、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てています。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。
RealToxicityPrompts: RealToxicityPrompts は、有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。
T-Rex : ナレッジベーストリプルを使用した自然言語の大規模な調整 (TREX）: TREX は、Wikipedia から抽出されたナレッジベーストリプル (KBTs) で構成されるデータセットです。 KBTsは、自然言語処理 (NLP) とナレッジ表現で使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例は、「ジョージ・ワシントンが米国の大統領だった」です。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。
WikiText2: WikiText2 は、一般的なテキスト生成で使用されるプロンプトを含む HuggingFace データセットです。
Gigaword: Gigaword データセットは、ニュース見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。
BoolQ: BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。
Natural Questions: 自然の質問は、に送信された実際のユーザーの質問で構成されるデータセットです。Google 検索。
TriviaQA: TriviaQA は、650Kを超えるを含むデータセットですquestion-answer-evidence-triples。このデータセットは質問回答タスクに使用されます。
Women's E-Commerce Clothing Reviews: Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。

以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「Review metrics for an automated model evaluation job in Amazon Bedrock (console)」を参照してください。

Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット
タスクタイプ	メトリクス	組み込みデータセット	計算済みのメトリクス
一般的なテキスト生成	正解率	TREX	現実世界の知識 (RWK) スコア
	堅牢性	BOLD	単語エラー率
		TREX
		WikiText2
	有害性	RealToxicityPrompts	有害性
	有害性	BOLD	有害性
テキスト要約	正解率	Gigaword	BERTScore
	有害性	Gigaword	有害性
	堅牢性	Gigaword	BERTScore および deltaBERTScore
質問と回答	正解率	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	堅牢性	BoolQ	F1 および deltaF1
		NaturalQuestions
		TriviaQA
	有害性	BoolQ	有害性
		NaturalQuestions
		TriviaQA
テキスト分類	正解率	Women's Ecommerce Clothing Reviews	正解率 (classification_accuracy_score による正解率)
テキスト分類	堅牢性	Women's Ecommerce Clothing Reviews	classification_accuracy_score および delta_classification_accuracy_score

カスタムプロンプトデータセットの作成要件と例の詳細については、「Use custom prompt dataset for model evaluation in Amazon Bedrock」を参照してください。

Use custom prompt dataset for model evaluation in Amazon Bedrock

自動モデル評価ジョブでカスタムプロンプトデータセットを作成できます。カスタムプロンプトデータセットは Amazon S3 に保存し、 JSON 行形式と .jsonl ファイル拡張子を使用する必要があります。各行は有効なJSONオブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。

コンソールを使用して作成されたジョブの場合、S3 バケットの Cross Origin Resource Sharing (CORS) 設定を更新する必要があります。必要なCORSアクセス許可の詳細については、「」を参照してくださいS3 バケットで必要なクロスオリジンリソース共有 (CORS) アクセス許可。

カスタムデータセットでは、次のキーと値のペアを使用する必要があります。

prompt — 以下のタスクの入力を示すのに必要です。
- 一般的なテキスト生成でモデルが応答すべきプロンプト。
- 質問回答タスクタイプでモデルが回答すべき質問。
- テキスト要約タスクでモデルが要約すべきテキスト。
- 分類タスクでモデルが分類すべきテキスト。
referenceResponse — 以下のタスクタイプで、モデルを評価する基準となるグラウンドトゥルースレスポンスを示すのに必要です。
- 質問回答タスクのすべてのプロンプトに対する回答。
- すべての正解率と堅牢性の評価に対する答え。
category — (オプション) カテゴリごとに報告される評価スコアを生成します。

例えば、精度には、質問された質問と、モデルのレスポンスをチェックするための回答の両方が必要です。この例では、質問に含まれる値の入った prompt キーと、回答に含まれる値の入った referenceResponse キーを次のように使用します。


{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}

前の例は、推論リクエストとしてモデルに送信される JSON 1 行の入力ファイルの 1 行です。モデルは、JSONラインデータセット内のそのようなレコードごとに呼び出されます。以下のデータ入力例は、評価にオプションの category キーを使用する質問回答タスクのものです。


{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

テキスト分類

ジョブの作成