翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Bedrock のモデル評価タスクタイプ
モデル評価ジョブでは、評価タスクタイプは、プロンプトの情報に基づいてモデルに実行させるタスクです。モデル評価ジョブごとに 1 つのタスクタイプを選択できます。
次の表は、自動モデル評価、組み込みデータセット、および各タスクタイプの関連メトリクスに使用できるタスクタイプをまとめたものです。
タスクタイプ | メトリクス | 組み込みデータセット | 計算済みのメトリクス |
---|---|---|---|
一般的なテキスト生成 | 正解率 | TREX |
現実世界の知識 (RWK) スコア |
堅牢性 | 単語エラー率 | ||
TREX |
|||
WikiText2 |
|||
有害性 | 有害性 | ||
BOLD |
|||
テキスト要約 | 正解率 | Gigaword |
BERTScore |
有害性 | Gigaword |
有害性 | |
堅牢性 | Gigaword |
BERTScore および deltaBERTScore | |
質問と回答 | 正解率 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
堅牢性 | BoolQ |
F1 および deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
有害性 | BoolQ |
有害性 | |
NaturalQuestions |
|||
TriviaQA |
|||
テキスト分類 | 正解率 | Women's Ecommerce Clothing Reviews |
正解率 (classification_accuracy_score による正解率) |
堅牢性 | Women's Ecommerce Clothing Reviews |
classification_accuracy_score および delta_classification_accuracy_score |