翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Question and answer for model evaluation in Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

質問回答は、ヘルプデスクでの自動レスポンスの生成、情報検索、e ラーニングなどのタスクに使用されます。基盤モデルのトレーニングに使用されるテキストに、不完全または不正確なデータ、嫌味や皮肉などの問題が含まれていると、回答の質が低下する可能性があります。

**重要**  
質問と回答の場合、Cohere モデルが毒性評価を正常に完了できないというシステム上の既知の問題があります。

次の組み込みデータセットは、質問と回答のタスクタイプで使用することをお勧めします。

**BoolQ**  
BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

**Natural Questions**  
Natural Questions は、Google 検索に送信された実際のユーザーの質問で構成されるデータセットです。

**TriviaQA**  
TriviaQA は 65 万件を超える質問と回答のエビデンストリプルを含むデータセットです。このデータセットは質問回答タスクに使用されます。

次の表は、計算済みのメトリクスと推奨の組み込みデータセットをまとめたものです。またはサポートされている AWS SDK を使用して使用可能な組み込みデータセットを正常に指定するには AWS CLI、 列のパラメータ名*である組み込みデータセット (API) *を使用します。


**Amazon Bedrock の質問回答タスクタイプで使用可能な組み込みデータセット**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

各組み込みデータセットの計算済みのメトリクスの計算方法の詳細については、「[Review model evaluation job reports and metrics in Amazon Bedrock](model-evaluation-report.md)」を参照してください。