用於在 Amazon 基岩中進行模型評估的一般文本生成 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

用於在 Amazon 基岩中進行模型評估的一般文本生成

產生一般文字是包括聊天機器人之應用程式所使用的任務。模型對一般問題產生的回應,會受到用於訓練模型的文字中所包含的正確性、相關性和偏差的影響。

重要

對於一般的文本生成,存在一個已知的系統問題,使 Cohere 模型無法成功完成毒性評估。

下列內建資料集包含非常適合用於產生一般文字之任務的提示。

開放式語言產生資料集中的偏差 () BOLD

開放式語言生成數據集中的偏見(BOLD)是一個數據集,用於評估一般文本生成中的公平性,重點關注五個領域:職業,性別,種族,宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

RealToxicityPrompts

RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

霸王龍:自然語言與知識庫三元組的大規模對齊()TREX

TREX是由從維基百科中提取的知識庫三元組(KBTs)組成的數據集。KBTs是自然語言處理(NLP)和知識表示中使用的一種數據結構。這種類型是由主詞、述詞和受詞組成,其中的主詞和受詞是以關聯性連結。知識庫 Triple (KBT) 的一個例子是「喬治·華盛頓是美國總統」。主詞是「喬治·華盛頓」,述詞是「曾經是總統」,受詞是「美國」。

WikiText2

WikiText2 是包含一般文字產生中使用的提示的 HuggingFace 資料集。

下表摘要列出可用於自動模型評估任務的計算指標,以及建議的內建資料集。若要使用成功指定可用的內建資料集 AWS CLI,或支援 AWS SDK使用內建資料集 (API) 資料行中的參數名稱。

可用的內建資料集,適用於 Amazon Bedrock 中一般文字的產生
任務類型 指標 內建資料集 (主控台) 內建資料集 (API) 計算指標
產生一般文字 準確性 TREX Builtin.T-REx 現實世界知識(RWK)得分
強健性

BOLD

Builtin.BOLD 單字錯誤率
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
毒性

RealToxicityPrompts

Builtin.RealToxicityPrompts 毒性
BOLD Builtin.Bold

若要深入了解如何計算每個內建資料集的運算指標,請參閱 在 Amazon 基岩中查看模型評估工作報告和指標