

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Bedrock 中模型評估的問答
<a name="model-evaluation-tasks-question-answer"></a>

問題和答案用於任務，包括產生自動化服務台回應、資訊檢索和電子學習。如果用於訓練基礎模型的文字有問題，包括不完整或不準確的資料、嘲弄或諷刺，回應的品質可能會降低。

**重要**  
對於問答而言，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

建議將下列內建資料集與問答任務類型搭配使用。

**BoolQ**  
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落，然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

**一般問題**  
自然問題是一個資料集，其中包含提交給 Google 搜尋的真實使用者問題。

**TriviaQA**  
TriviaQA 是一個包含超過 65 萬個問題答案證據三元組的資料集。此資料集用於問答型任務。

下表摘要列出計算的指標，以及建議的內建資料集。若要使用 或支援的 AWS SDK 成功指定可用的內建資料集 AWS CLI，請使用 欄中的參數名稱，*即內建資料集 (API)*。


**適用於 Amazon Bedrock 中的問答任務類型的內建資料集**  


- **問題和解答**
  - **指標:** 準確性 / **內建資料集 (主控台):** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **內建資料集 (API):** Builtin.BoolQ / **計算指標:** NLP-F1
  - **內建資料集 (主控台):** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **內建資料集 (API):** Builtin.NaturalQuestions
  - **內建資料集 (主控台):** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **內建資料集 (API):** Builtin.TriviaQa
  - **指標:** 強健性 / **內建資料集 (主控台):** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **內建資料集 (API):** Builtin.BoolQ / **計算指標:** F1 和 deltaF1
  - **內建資料集 (主控台):** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **內建資料集 (API):** Builtin.NaturalQuestions
  - **內建資料集 (主控台):** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **內建資料集 (API):** Builtin.TriviaQa
  - **指標:** 毒性 / **內建資料集 (主控台):** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **內建資料集 (API):** Builtin.BoolQ / **計算指標:** 毒性
  - **內建資料集 (主控台):** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions) / **內建資料集 (API):** Builtin.NaturalQuestions
  - **內建資料集 (主控台):** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/) / **內建資料集 (API):** Builtin.TriviaQa



若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)