

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Model evaluation task types in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

モデル評価ジョブでは、評価タスクタイプは、プロンプトの情報に基づいてモデルに実行させるタスクです。モデル評価ジョブごとに 1 つのタスクタイプを選択できます。

次の表は、自動モデル評価、組み込みデータセット、および各タスクタイプの関連メトリクスに使用できるタスクタイプをまとめたものです。


**Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット**  


- **一般的なテキスト生成 **
  - **メトリクス:** 正解率  / **組み込みデータセット:** [TREX](https://hadyelsahar.github.io/t-rex/) / **計算済みのメトリクス:** リアルワールドナレッジ (RWK) スコア
  - **メトリクス:** 堅牢性 / **組み込みデータセット:** [BOLD](https://github.com/amazon-science/bold) / **計算済みのメトリクス:** 単語エラー率
  - **組み込みデータセット:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **組み込みデータセット:** [WikiText2](https://huggingface.co/datasets/wikitext)
  - **メトリクス:** 有害性 / **組み込みデータセット:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **計算済みのメトリクス:** 有害性 
  - **組み込みデータセット:** [BOLD](https://github.com/amazon-science/bold)

- **テキスト要約**
  - **メトリクス:** 正解率  / **組み込みデータセット:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **計算済みのメトリクス:** BERTScore
  - **メトリクス:** 有害性 / **組み込みデータセット:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **計算済みのメトリクス:** 有害性 
  - **メトリクス:**  堅牢性  / **組み込みデータセット:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **計算済みのメトリクス:** BERTScore および deltaBERTScore

- **質問と回答**
  - **メトリクス:** 正解率 / **組み込みデータセット:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **計算済みのメトリクス:** NLP-F1
  - **組み込みデータセット:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **組み込みデータセット:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **メトリクス:** 堅牢性 / **組み込みデータセット:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **計算済みのメトリクス:** F1 および deltaF1 
  - **組み込みデータセット:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **組み込みデータセット:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **メトリクス:** 有害性 / **組み込みデータセット:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **計算済みのメトリクス:** 有害性 
  - **組み込みデータセット:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **組み込みデータセット:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **テキスト分類**
  - **メトリクス:** 正解率  / **組み込みデータセット:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **計算済みのメトリクス:** 正解率 (classification\_accuracy\_score による正解率)
  - **メトリクス:** 堅牢性  / **組み込みデータセット:** [Women's Ecommerce Clothing Reviews](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **計算済みのメトリクス:** classification\_accuracy\_score および delta\_classification\_accuracy\_score



**Topics**
+ [General text generation for model evaluation in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Text summarization for model evaluation in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Question and answer for model evaluation in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Text classification for model evaluation in Amazon Bedrock](model-evaluation-text-classification.md)