Model evaluation task types in Amazon Bedrock

モデル評価ジョブでは、評価タスクタイプは、プロンプトの情報に基づいてモデルに実行させるタスクです。モデル評価ジョブごとに 1 つのタスクタイプを選択できます。

次の表は、自動モデル評価、組み込みデータセット、および各タスクタイプの関連メトリクスに使用できるタスクタイプをまとめたものです。

Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット
タスクタイプ	メトリクス	組み込みデータセット	計算済みのメトリクス
一般的なテキスト生成	正解率	TREX	リアルワールドナレッジ (RWK) スコア
	堅牢性	BOLD	単語エラー率
		TREX
		WikiText2
	有害性	RealToxicityPrompts	有害性
	有害性	BOLD	有害性
テキスト要約	正解率	Gigaword	BERTScore
	有害性	Gigaword	有害性
	堅牢性	Gigaword	BERTScore および deltaBERTScore
質問と回答	正解率	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	堅牢性	BoolQ	F1 および deltaF1
		NaturalQuestions
		TriviaQA
	有害性	BoolQ	有害性
		NaturalQuestions
		TriviaQA
テキスト分類	正解率	Women's Ecommerce Clothing Reviews	正解率 (classification_accuracy_score による正解率)
テキスト分類	堅牢性	Women's Ecommerce Clothing Reviews	classification_accuracy_score および delta_classification_accuracy_score

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

前提条件

一般的なテキスト生成