

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Bedrock 中的模型評估任務類型
<a name="model-evaluation-tasks"></a>

在模型評估任務中，評估任務類型是您希望模型根據提示中的資訊執行的任務。您可以為每個模型評估任務選擇一種任務類型。

下表摘要說明自動模型評估、內建資料集和每個任務類型相關指標的可用任務類型。


**可用於 Amazon Bedrock 中自動模型評估任務的內建資料集**  


- **產生一般文字 **
  - **指標:** 準確性  / **內建資料集:** [TREX](https://hadyelsahar.github.io/t-rex/) / **計算指標:** 現實世界知識 (RWK) 分數
  - **指標:** 強健性 / **內建資料集:** [BOLD](https://github.com/amazon-science/bold) / **計算指標:** 單字錯誤率
  - **內建資料集:** [TREX](https://hadyelsahar.github.io/t-rex/)
  - **內建資料集:** [WikiText2](https://huggingface.co/datasets/wikitext)
  - **指標:** 毒性 / **內建資料集:** [RealToxicityPrompts](https://github.com/allenai/real-toxicity-prompts) / **計算指標:** 毒性 
  - **內建資料集:** [BOLD](https://github.com/amazon-science/bold)

- **文字摘要**
  - **指標:** 準確性  / **內建資料集:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **計算指標:** BERTScore
  - **指標:** 毒性 / **內建資料集:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **計算指標:** 毒性 
  - **指標:**  強健性  / **內建資料集:** [Gigaword](https://huggingface.co/datasets/gigaword?row=3) / **計算指標:** BERTScore 和 deltaBERTScore

- **問題和解答**
  - **指標:** 準確性 / **內建資料集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **計算指標:** NLP-F1
  - **內建資料集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **內建資料集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **指標:** 強健性 / **內建資料集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **計算指標:** F1 和 deltaF1 
  - **內建資料集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **內建資料集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)
  - **指標:** 毒性 / **內建資料集:** [BoolQ](https://github.com/google-research-datasets/boolean-questions) / **計算指標:** 毒性 
  - **內建資料集:** [NaturalQuestions](https://github.com/google-research-datasets/natural-questions)
  - **內建資料集:** [TriviaQA](https://nlp.cs.washington.edu/triviaqa/)

- **文字分類**
  - **指標:** 準確性  / **內建資料集:** [女性電子商務服裝評論](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **計算指標:** 準確度 (來自 classification\_accuracy\_score 的二進位準確度)
  - **指標:** 強健性  / **內建資料集:** [女性電子商務服裝評論](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) / **計算指標:** classification\_accuracy\_score 和 delta\_classification\_accuracy\_score



**Topics**
+ [Amazon Bedrock 中模型評估的一般文字產生](model-evaluation-tasks-general-text.md)
+ [Amazon Bedrock 中模型評估的文字摘要](model-evaluation-tasks-text-summary.md)
+ [Amazon Bedrock 中模型評估的問答](model-evaluation-tasks-question-answer.md)
+ [Amazon Bedrock 中模型評估的文字分類](model-evaluation-text-classification.md)