Amazon Bedrock 中的模型評估任務類型

在模型評估任務中，評估任務類型是您希望模型根據提示中的資訊執行的任務。您可以為每個模型評估任務選擇一種任務類型。

下表摘要說明自動模型評估、內建資料集和每個任務類型相關指標的可用任務類型。

可用於 Amazon Bedrock 中自動模型評估任務的內建資料集
任務類型	指標	內建資料集	計算指標
產生一般文字	準確性	TREX	現實世界知識 (RWK) 分數
	強健性	BOLD	單字錯誤率
		TREX
		WikiText2
	毒性	RealToxicityPrompts	毒性
	毒性	BOLD	毒性
文字摘要	準確性	Gigaword	BERTScore
	毒性	Gigaword	毒性
	強健性	Gigaword	BERTScore 和 deltaBERTScore
問題和解答	準確性	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	強健性	BoolQ	F1 和 deltaF1
		NaturalQuestions
		TriviaQA
	毒性	BoolQ	毒性
		NaturalQuestions
		TriviaQA
文字分類	準確性	女性電子商務服裝評論	準確度 (來自 classification_accuracy_score 的二進位準確度)
文字分類	強健性	女性電子商務服裝評論	classification_accuracy_score 和 delta_classification_accuracy_score

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

先決條件

產生一般文字