Use prompt datasets for model evaluation in Amazon Bedrock - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Use prompt datasets for model evaluation in Amazon Bedrock

自動モデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルとの推論中に使用されます。Amazon Bedrock には、自動モデル評価に使用できるデータセットが組み込まれています。また、独自のプロンプトデータセットを持ち込むこともできます。

以下のセクションでは、使用可能な組み込みプロンプトデータセットについて説明します。また、カスタムプロンプトデータセットの作成についても説明します。

Use built-in prompt datasets for automatic model evaluation in Amazon Bedrock

Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めます。

自動モデル評価ジョブを作成して [タスクタイプ] を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「Model evaluation task types in Amazon Bedrock」を参照してください。

オープンエンド言語生成データセットのバイアス (BOLD)

オープンエンド言語生成データセットのバイアス (BOLD) は、一般的なテキスト生成の公平性を評価するデータセットで、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てています。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

RealToxicityPrompts

RealToxicityPrompts は、有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

T-Rex : ナレッジベーストリプルを使用した自然言語の大規模な調整 (TREX)

TREX は、Wikipedia から抽出されたナレッジベーストリプル (KBTs) で構成されるデータセットです。 KBTsは、自然言語処理 (NLP) とナレッジ表現で使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例は、「ジョージ・ワシントンが米国の大統領だった」です。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

WikiText2

WikiText2 は、一般的なテキスト生成で使用されるプロンプトを含む HuggingFace データセットです。

Gigaword

Gigaword データセットは、ニュース見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。

BoolQ

BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

Natural Questions

自然の質問は、 に送信された実際のユーザーの質問で構成されるデータセットです。Google 検索。

TriviaQA

TriviaQA は、650Kを超える を含むデータセットですquestion-answer-evidence-triples。このデータセットは質問回答タスクに使用されます。

Women's E-Commerce Clothing Reviews

Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。

以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「Review metrics for an automated model evaluation job in Amazon Bedrock (console)」を参照してください。

Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット
タスクタイプ メトリクス 組み込みデータセット 計算済みのメトリクス
一般的なテキスト生成 正解率 TREX 現実世界の知識 (RWK) スコア
堅牢性

BOLD

単語エラー率
TREX
WikiText2
有害性

RealToxicityPrompts

有害性
BOLD
テキスト要約 正解率 Gigaword BERTScore
有害性 Gigaword 有害性
堅牢性 Gigaword BERTScore および deltaBERTScore
質問と回答 正解率 BoolQ NLP-F1
NaturalQuestions
TriviaQA
堅牢性 BoolQ F1 および deltaF1
NaturalQuestions
TriviaQA
有害性 BoolQ 有害性
NaturalQuestions
TriviaQA
テキスト分類 正解率 Women's Ecommerce Clothing Reviews 正解率 (classification_accuracy_score による正解率)
堅牢性 Women's Ecommerce Clothing Reviews

classification_accuracy_score および delta_classification_accuracy_score

カスタムプロンプトデータセットの作成要件と例の詳細については、「Use custom prompt dataset for model evaluation in Amazon Bedrock」を参照してください。

Use custom prompt dataset for model evaluation in Amazon Bedrock

自動モデル評価ジョブでカスタムプロンプトデータセットを作成できます。カスタムプロンプトデータセットは Amazon S3 に保存し、 JSON 行形式と .jsonl ファイル拡張子を使用する必要があります。各行は有効なJSONオブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。

コンソールを使用して作成されたジョブの場合、S3 バケットの Cross Origin Resource Sharing (CORS) 設定を更新する必要があります。必要なCORSアクセス許可の詳細については、「」を参照してくださいS3 バケットで必要なクロスオリジンリソース共有 (CORS) アクセス許可

カスタムデータセットでは、次のキーと値のペアを使用する必要があります。

  • prompt — 以下のタスクの入力を示すのに必要です。

    • 一般的なテキスト生成でモデルが応答すべきプロンプト。

    • 質問回答タスクタイプでモデルが回答すべき質問。

    • テキスト要約タスクでモデルが要約すべきテキスト。

    • 分類タスクでモデルが分類すべきテキスト。

  • referenceResponse — 以下のタスクタイプで、モデルを評価する基準となるグラウンドトゥルースレスポンスを示すのに必要です。

    • 質問回答タスクのすべてのプロンプトに対する回答。

    • すべての正解率と堅牢性の評価に対する答え。

  • category — (オプション) カテゴリごとに報告される評価スコアを生成します。

例えば、精度には、質問された質問と、モデルのレスポンスをチェックするための回答の両方が必要です。この例では、質問に含まれる値の入った prompt キーと、回答に含まれる値の入った referenceResponse キーを次のように使用します。

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }

前の例は、推論リクエストとしてモデルに送信される JSON 1 行の入力ファイルの 1 行です。モデルは、JSONラインデータセット内のそのようなレコードごとに呼び出されます。以下のデータ入力例は、評価にオプションの category キーを使用する質問回答タスクのものです。

{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}