Amazon Bedrock 中模型評估的一般文字產生

產生一般文字是包括聊天機器人之應用程式所使用的任務。模型對一般問題產生的回應，會受到用於訓練模型的文字中所包含的正確性、相關性和偏差的影響。

對於一般文字產生，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

下列內建資料集包含非常適合用於產生一般文字之任務的提示。

開放式語言生成資料集中的偏差 (BOLD): 開放式語言生成資料集中的偏見 (BOLD)是一種資料集，可用於評估一般文字產生時的公平性，重點聚焦於五個領域：職業、性別、種族、宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。
RealToxicityPrompts: RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。
T-Rex：大規模對齊自然語言與知識庫三元組 (TREX): TREX 是從維基百科中提取的知識庫三元組 (KBT) 組成的資料集。KBT 是自然語言處理 (NLP)和知識表示法中使用的一種資料結構類型。這種類型是由主詞、述詞和受詞組成，其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT)的範例子是「喬治·華盛頓曾經是美國總統」。主詞是「喬治·華盛頓」，述詞是「曾經是總統」，受詞是「美國」。
WikiText2: WikiText2 是一種 HuggingFace 資料集，其包含產生一般文字時使用的提示。

下表摘要列出可用於自動模型評估任務的計算指標，以及建議的內建資料集。若要使用或支援的 AWS SDK 成功指定可用的內建資料集 AWS CLI，請使用欄中的參數名稱，即內建資料集 (API)。

可用的內建資料集，適用於 Amazon Bedrock 中一般文字的產生
任務類型	指標	內建資料集 (主控台)	內建資料集 (API)	計算指標
產生一般文字	準確性	TREX	`Builtin.T-REx`	現實世界知識 (RWK) 分數
	強健性	BOLD	`Builtin.BOLD`	單字錯誤率
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	毒性	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	毒性
	毒性	BOLD	`Builtin.Bold`	毒性

若要深入了解如何計算每個內建資料集的運算指標，請參閱在 Amazon Bedrock 中檢閱模型評估任務報告和指標

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

模型評估任務類型

文字摘要