Amazon Bedrock のモデル評価タスクタイプ - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock のモデル評価タスクタイプ

モデル評価ジョブでは、評価タスクタイプは、プロンプトの情報に基づいてモデルに実行させるタスクです。モデル評価ジョブごとに 1 つのタスクタイプを選択できます。

次の表は、自動モデル評価、組み込みデータセット、および各タスクタイプの関連メトリクスに使用できるタスクタイプをまとめたものです。

Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット
タスクタイプ メトリクス 組み込みデータセット 計算済みのメトリクス
一般的なテキスト生成 正解率 TREX 現実世界の知識 (RWK) スコア
堅牢性

BOLD

単語エラー率
TREX
WikiText2
有害性

RealToxicityPrompts

有害性
BOLD
テキスト要約 正解率 Gigaword BERTScore
有害性 Gigaword 有害性
堅牢性 Gigaword BERTScore および deltaBERTScore
質問と回答 正解率 BoolQ NLP-F1
NaturalQuestions
TriviaQA
堅牢性 BoolQ F1 および deltaF1
NaturalQuestions
TriviaQA
有害性 BoolQ 有害性
NaturalQuestions
TriviaQA
テキスト分類 正解率 Women's Ecommerce Clothing Reviews 正解率 (classification_accuracy_score による正解率)
堅牢性 Women's Ecommerce Clothing Reviews

classification_accuracy_score および delta_classification_accuracy_score