本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Bedrock 中的模型評估任務類型
在模型評估任務中,評估任務類型是您希望模型根據提示中的資訊執行的任務。您可以為每個模型評估任務選擇一種任務類型。
下表摘要說明可用於自動模型評估的任務類型、內建資料集,以及每個任務類型的相關指標。
任務類型 | 指標 | 內建資料集 | 計算指標 |
---|---|---|---|
產生一般文字 | 準確性 | TREX |
真實世界知識 (RWK) 分數 |
強健性 | 單字錯誤率 | ||
TREX |
|||
WikiText2 |
|||
毒性 | 毒性 | ||
BOLD |
|||
文字摘要 | 準確性 | Gigaword |
BERTScore |
毒性 | Gigaword |
毒性 | |
強健性 | Gigaword |
BERTScore 和 deltaBERTScore | |
問題和解答 | 準確性 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
強健性 | BoolQ |
F1 和 deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
毒性 | BoolQ |
毒性 | |
NaturalQuestions |
|||
TriviaQA |
|||
文字分類 | 準確性 | 女性電子商務服裝評論 |
準確度 (來自 classification_accuracy_score 的二進位準確度) |
強健性 | 女性電子商務服裝評論 |
classification_accuracy_score 和 delta_classification_accuracy_score |