Amazon Bedrock 中的模型評估任務類型 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Bedrock 中的模型評估任務類型

在模型評估任務中,評估任務類型是您希望模型根據提示中的資訊執行的任務。您可以為每個模型評估任務選擇一種任務類型。

下表摘要說明可用於自動模型評估的任務類型、內建資料集,以及每個任務類型的相關指標。

可用於 Amazon Bedrock 中自動模型評估任務的內建資料集
任務類型 指標 內建資料集 計算指標
產生一般文字 準確性 TREX 真實世界知識 (RWK) 分數
強健性

BOLD

單字錯誤率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文字摘要 準確性 Gigaword BERTScore
毒性 Gigaword 毒性
強健性 Gigaword BERTScore 和 deltaBERTScore
問題和解答 準確性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
強健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文字分類 準確性 女性電子商務服裝評論 準確度 (來自 classification_accuracy_score 的二進位準確度)
強健性 女性電子商務服裝評論

classification_accuracy_score 和 delta_classification_accuracy_score