翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Use prompt datasets for model evaluation in Amazon Bedrock
自動モデル評価ジョブを作成するには、プロンプトデータセットを指定する必要があります。その後、プロンプトは、評価対象として選択したモデルとの推論中に使用されます。Amazon Bedrock には、自動モデル評価に使用できるデータセットが組み込まれています。また、独自のプロンプトデータセットを持ち込むこともできます。
以下のセクションでは、使用可能な組み込みプロンプトデータセットについて説明します。また、カスタムプロンプトデータセットの作成についても説明します。
Use built-in prompt datasets for automatic model evaluation in Amazon Bedrock
Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めます。
自動モデル評価ジョブを作成して [タスクタイプ] を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「Model evaluation task types in Amazon Bedrock」を参照してください。
- オープンエンド言語生成データセットのバイアス (BOLD)
-
オープンエンド言語生成データセットのバイアス (BOLD) は、一般的なテキスト生成の公平性を評価するデータセットで、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つの分野に焦点を当てています。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。
- RealToxicityPrompts
-
RealToxicityPrompts は、有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。
- T-Rex : ナレッジベーストリプルを使用した自然言語の大規模な調整 (TREX)
-
TREX は、Wikipedia から抽出されたナレッジベーストリプル (KBTs) で構成されるデータセットです。 KBTsは、自然言語処理 (NLP) とナレッジ表現で使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例は、「ジョージ・ワシントンが米国の大統領だった」です。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。
- WikiText2
-
WikiText2 は、一般的なテキスト生成で使用されるプロンプトを含む HuggingFace データセットです。
- Gigaword
-
Gigaword データセットは、ニュース見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。
- BoolQ
-
BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。
- Natural Questions
-
自然の質問は、 に送信された実際のユーザーの質問で構成されるデータセットです。Google 検索。
- TriviaQA
-
TriviaQA は、650Kを超える を含むデータセットですquestion-answer-evidence-triples。このデータセットは質問回答タスクに使用されます。
- Women's E-Commerce Clothing Reviews
-
Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。
以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「Review metrics for an automated model evaluation job in Amazon Bedrock (console)」を参照してください。
タスクタイプ | メトリクス | 組み込みデータセット | 計算済みのメトリクス |
---|---|---|---|
一般的なテキスト生成 | 正解率 | TREX |
現実世界の知識 (RWK) スコア |
堅牢性 | 単語エラー率 | ||
TREX |
|||
WikiText2 |
|||
有害性 | 有害性 | ||
BOLD |
|||
テキスト要約 | 正解率 | Gigaword |
BERTScore |
有害性 | Gigaword |
有害性 | |
堅牢性 | Gigaword |
BERTScore および deltaBERTScore | |
質問と回答 | 正解率 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
堅牢性 | BoolQ |
F1 および deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
有害性 | BoolQ |
有害性 | |
NaturalQuestions |
|||
TriviaQA |
|||
テキスト分類 | 正解率 | Women's Ecommerce Clothing Reviews |
正解率 (classification_accuracy_score による正解率) |
堅牢性 | Women's Ecommerce Clothing Reviews |
classification_accuracy_score および delta_classification_accuracy_score |
カスタムプロンプトデータセットの作成要件と例の詳細については、「Use custom prompt dataset for model evaluation in Amazon Bedrock」を参照してください。
Use custom prompt dataset for model evaluation in Amazon Bedrock
自動モデル評価ジョブでカスタムプロンプトデータセットを作成できます。カスタムプロンプトデータセットは Amazon S3 に保存し、 JSON 行形式と .jsonl
ファイル拡張子を使用する必要があります。各行は有効なJSONオブジェクトである必要があります。自動評価ジョブ 1 件につき、データセットには最大 1,000 のプロンプトを設定できます。
コンソールを使用して作成されたジョブの場合、S3 バケットの Cross Origin Resource Sharing (CORS) 設定を更新する必要があります。必要なCORSアクセス許可の詳細については、「」を参照してくださいS3 バケットで必要なクロスオリジンリソース共有 (CORS) アクセス許可。
カスタムデータセットでは、次のキーと値のペアを使用する必要があります。
-
prompt
— 以下のタスクの入力を示すのに必要です。-
一般的なテキスト生成でモデルが応答すべきプロンプト。
-
質問回答タスクタイプでモデルが回答すべき質問。
-
テキスト要約タスクでモデルが要約すべきテキスト。
-
分類タスクでモデルが分類すべきテキスト。
-
-
referenceResponse
— 以下のタスクタイプで、モデルを評価する基準となるグラウンドトゥルースレスポンスを示すのに必要です。-
質問回答タスクのすべてのプロンプトに対する回答。
-
すべての正解率と堅牢性の評価に対する答え。
-
-
category
— (オプション) カテゴリごとに報告される評価スコアを生成します。
例えば、精度には、質問された質問と、モデルのレスポンスをチェックするための回答の両方が必要です。この例では、質問に含まれる値の入った prompt
キーと、回答に含まれる値の入った referenceResponse
キーを次のように使用します。
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
前の例は、推論リクエストとしてモデルに送信される JSON 1 行の入力ファイルの 1 行です。モデルは、JSONラインデータセット内のそのようなレコードごとに呼び出されます。以下のデータ入力例は、評価にオプションの category
キーを使用する質問回答タスクのものです。
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}