在模型評估任務中使用提示資料集和可用的評估維度

下列各節提供如何使用自動和人工模型評估任務的概觀。

模型評估任務

在模型評估任務中，評估任務是您希望模型根據提示中的資訊執行的任務。

您可以為每個模型評估任務選擇一種任務類型。使用下列各節進一步了解每個任務類型。每個區段也包含可用內建資料集的清單，以及只能在自動模型評估任務中使用的對應指標。

開放式世代

開放式文字產生是基礎模型任務，可針對沒有預先定義結構的提示產生自然語言回應，例如對聊天機器人的一般用途查詢。對於開放式文字產生，基礎模型評估 (FMEval) 可以沿著下列維度評估您的模型。

事實知識 – 評估模型編碼事實知識的能力。FMEval 可以根據您自己的自訂資料集來測量模型，或根據TREX開放原始碼資料集使用內建資料集。
語意穩健性 - 評估模型輸出因輸入中的小型語意保留變更而產生的變更量。FMEval 會測量模型輸出如何因鍵盤錯別字、隨機變更為大寫，以及隨機新增或刪除空格而變更。
提示刻板印象 – 測量模型在其回應中編碼偏差的機率。這些偏差包括種族、性別、性傾向、宗教、年齡、國籍、失能、身體外表和社會經濟狀態。FMEval 可以根據自己的自訂資料集來測量模型回應，或根據CrowS-Pairs開放原始碼挑戰資料集使用內建資料集。
毒性 – 使用毒性偵測模型評估文字。FMEval 會檢查您的模型是否有性參考資料、粗魯、不合理、仇恨或攻擊性的評論、褻瀆、侮辱、調情、對身分的攻擊和威脅。FMEval 可以根據您自己的自訂資料集來測量模型RealToxicityPromptsChallenging，或根據 RealToxicityPrompts、和資料集使用內建BOLD資料集。

RealToxicityPromptsChallenging 是的子集RealToxicityPrompts，用於測試大型語言模型 (LLM) 的限制。它也會識別 LLMs 容易產生有毒文字的區域。

您可以使用下列毒性偵測器來評估模型：
- UnitaryAI Detoxify-unbiased – 在 Toxic Comment Classification Challenge和上訓練的多標籤文字分類器Jigsaw Unintended Bias in Toxicity Classification。此模型提供下列類別的7分數：毒性、嚴重毒性、淫穢性、威脅、侮辱、性露骨和身分攻擊。
- Toxigen-roberta – 以二進位 RoBERTa為基礎的文字分類器，已微調ToxiGen資料集。ToxiGen 資料集包含與少數群體相關的細微和隱含毒性的句子。

文字摘要

文字摘要用於任務，例如建立新聞、法律文件、學術論文、內容預覽和內容策劃的摘要。以下內容可能會影響回應品質：模棱兩可、一致性、偏差、用於訓練基礎模型的文字流暢程度，以及資訊遺失、準確性、相關性或內容不符。FMEval 可以根據您自己的自訂資料集評估模型，或根據 Government Report Dataset、和資料集使用內建Gigaword資料集。對於文字摘要，FMEval 可以評估您的模型是否有下列項目：

準確性 – 數值分數，指出摘要與可接受作為黃金標準的參考摘要的相似性。高數值分數表示摘要具有高品質。低數值分數表示摘要不佳。下列指標用於評估摘要的準確性：
- ROUGE-N – 運算參考和模型摘要之間的N-gram重疊。
- Meteor – 計算參考和模型摘要之間的重疊字詞，同時考慮複寫。
- BERTScore – 計算和比較摘要和參考的句子內嵌。FMEval 使用 roberta-large-mnli 或 microsoft/deberta-xlarge-mnli 模型來計算內嵌。
毒性 – 使用毒性偵測器模型計算的產生摘要分數。如需詳細資訊，請參閱上一個針對開放式產生任務的毒性一節。
語意穩健性 – 衡量模型文字摘要品質因輸入中小型語意保留變更而變更的程度。這些變更的範例包括錯別字、大寫的隨機變更，以及空格的隨機新增或刪除。語意穩健性使用不中斷的文字摘要與中斷的文字摘要之間的絕對準確度差異。準確度演算法使用 ROUGE-N、 Meteor和 BERTScore指標，如本節先前所述。

回答問題

問題回答用於產生自動服務台回應、資訊擷取和數位學習等任務。FMEval 可以根據您自己的自訂資料集評估模型TriviaQA，或根據 BoolQ、和資料集使用內建Natural Questions資料集。針對問題回答，FMEval 可以評估您的模型是否具有下列特性：

準確性 – 將產生的回應與參考中提供的問題回答對進行比較的平均分數。分數是以下列方法進行平均：
- 完全相符 – 的二進位分數1會指派給完全相符，0否則會指派給完全相符。
- 準精確比對 – 在標點符號和文法文章（例如、a 和）移除（標準化）之後，的二進位分數1會指派給比對。
- 單字的 F1 – F1 分數，或標準化回應和參考之間的精確度和召回的諧波平均值。F1 分數等於精確度乘以召回的兩倍，除以精確度 (P) 和召回 (R) 的總和，或 F1 = (2*P*R) / (P + R)。
  
  在先前的計算中，精確度定義為真陽性 (TP) 的數量除以真陽性和偽陽性 (FP) 的總和，或 P = (TP)/(TP+FP)。
  
  召回定義為真陽性數除以真陽性和假陰性 (FN) 的總和，或 R = (TP)/(TP+FN)。
  
  單字的 F1 分數越高，表示回應品質越高。
語意穩健性 – 衡量模型文字摘要品質因輸入中小型語意保留變更而改變的程度。這些變更的範例包括鍵盤錯別字、不正確的數字轉換為單字、隨機變更為大寫，以及隨機新增或刪除空格。語意穩健性使用不中斷的文字摘要與中斷的文字摘要之間的絕對準確度差異。準確度是使用精確配對、準精確配對和 F1 對單字進行測量，如前所述。
毒性 – 分數會使用毒性偵測器模型評估產生的答案。如需詳細資訊，請參閱上一個針對開放式產生任務的毒性一節。

分類

分類用於將文字分類為預先定義的類別。使用文字分類的應用程式包括內容推薦、垃圾郵件偵測、語言識別和社交媒體上的趨勢分析。不平衡、不明確、嘈雜的資料、標籤偏差是可能導致分類錯誤的一些問題。FMEval 會根據資料集的內建資料集Women’s ECommerce Clothing Reviews，和/或針對下列項目的提示資料集來評估您的模型。

準確性 – 將預測類別與其標籤進行比較的分數。準確度是使用下列指標測量：
- 分類準確性 – 1 如果預測標籤等於真實標籤，則為，0否則為的二進位分數。
- 精確度 – 在整個資料集上計算的真陽性與所有陽性的比率。在減少誤報很重要時，精確度是適當的措施。您可以使用 multiclass_average_strategy 參數的下列值來彙總每個資料點的分數。下列範例會列出每個參數。
- 召回 – 真陽性與真陽性和假陰性總和的比率，以整個資料集計算。減少誤報很重要時，召回是適當的措施。您可以使用 multiclass_average_strategy 參數的下列值來彙總每個資料點的分數。
  - micro （預設） – 真陽性總和除以所有類別的真陽性和假陰性總和。此彙總類型可測量模型的整體預測準確性，同時平均考量所有類別。例如，此彙總可以評估模型正確分類具有任何疾病的患者的能力，包括罕見疾病，因為它為所有類別提供相等的權重。
  - macro – 針對每個類別計算的召回值總和除以類別數量。此彙總類型可測量每個類別模型的預測準確度，且每個類別的權重相同。例如，此彙總可以評估模型預測所有疾病的能力，無論每個條件的普遍性或罕見性為何。
  - samples （僅限多類別分類） – 所有樣本的真陽性總和與所有樣本的真陽性和假陰性總和的比率。對於多類別分類，範例包含一組每個類別的預測回應。此彙總類型提供每個範例對多類別問題的召回的精細測量。例如，由於依範例彙整會平均處理每個範例，因此此彙整可以評估模型預測罕見疾病患者正確診斷的能力，同時將誤報降至最低。
  - weighted – 一個類別的權重乘以相同類別的召回，加總至所有類別。此彙總類型提供整體召回的指標，同時在類別之間適應不同的重要性。例如，此彙總可以評估模型預測患者正確診斷的能力，並為威脅生命的疾病提供更高的權重。
  - binary – 以值指定的類別計算的召回pos_label。此彙總類型會忽略未指定的類別，並提供單一類別的整體預測準確性。例如，此彙總可以評估模型篩選特定高傳染性生命威脅疾病人口的能力。
  - none – 為每個類別計算的召回。類別特定的召回可協助您解決資料中的類別不平衡，當類別之間的錯誤懲罰有顯著差異時。例如，此彙總可以評估模型識別可能具有特定疾病的所有患者的能力。
- 平衡分類準確性 (BCA) – 回收和真實負率的總和除2以二進位分類。真負率是真負數除以真負數和假陽性的總和。對於多類別分類，BCA 的計算方式為每個類別的回收值總和除以類別數量。當預測誤報和誤報的懲罰很高時，BCA 可以提供協助。例如，BCA 可以評估模型透過侵入性處理預測多種高傳染性致命疾病的能力。
語意穩健性 - 評估模型輸出因輸入中的小型語意保留變更而產生的變更量。FMEval 會測量您的模型輸出，因為鍵盤錯別字、大寫隨機變更，以及空格的隨機新增或刪除。語意穩健性會計算不中斷的文字摘要與中斷的文字摘要之間的絕對準確度差異。

基礎模型評估的類型

下列各節提供基礎模型評估的人工和演算法類型的詳細資訊。

人工評估

若要依人工評估模型，您必須定義指標和相關聯的指標類型。如果您想要評估多個模型，您可以使用比較或個別評分機制。如果您想要評估一個模型，您必須使用個別的評分機制。下列評分機制可以套用至任何文字相關任務：

（比較） Likert 擴展 - 比較 – 人工評估人員會根據您的指示，在 5 點 Likert 擴展的兩個回應之間指出其偏好。在最終報告中，結果會依您整個資料集的偏好強度，顯示為評分的長條圖。在指示中定義 5 點擴展的重點，讓您的評估者知道如何根據您的期望評定回應。
（比較） 選擇按鈕 – 允許人工評估器根據您的指示，使用選項按鈕，指出另一個回應的偏好回應。最終報告中的結果會以每個模型的工作者偏好的回應百分比顯示。在說明中清楚說明您的評估方法。
（比較） 順序排名 – 允許人工評估者根據指示，從 1 開始，將偏好的回應排序為提示。在最終報告中，結果會顯示為整個資料集上評估者排名的長條圖。請確定您在指示中定義排名的1含義。
（個別） 向上/向下移動 – 允許人工評估器根據您的指示，將模型的每個回應評分為可接受或不可接受的。在最終報告中，結果會顯示每個模型獲得拇指調高評分的評估者評定的評分總數百分比。您可以使用此評分方法來評估一或多個模型。如果您在包含兩個模型的評估中使用此功能，則 UI 會針對每個模型回應，向工作團隊提供拇指向上或向下選項。最終報告將個別顯示每個模型的彙總結果。在您的工作團隊指示中，定義什麼是可接受的回應。
（個別） Likert 擴展 - 個別 - 允許人工評估者根據您的指示，在 5 點 Likert 擴展上指出他們核准模型回應的強度。在最終報告中，結果會顯示整個資料集上評估者 5 點評分的長條圖。您可以使用此評分方法來評估包含一或多個模型。如果您在包含多個模型的評估中選擇此評分方法，則每個模型回應都會向您的工作團隊顯示 5 點 Likert 比例。最終報告將個別顯示每個模型的彙總結果。在您的說明中定義 5 點擴展的重點，讓您的評估者了解如何根據您的預期評定回應。

自動評估

自動評估可以利用內建的資料集和演算法，或者您可以攜帶自己的資料集，這些提示專屬於您的使用案例。每個任務的內建資料集各不相同，並列在下列各節中。如需任務及其相關指標和資料集的摘要，請參閱下列基礎模型摘要評估一節中的表格。

基礎模型評估摘要

下表摘要說明人工和自動評估的所有評估任務、指標和內建資料集。

任務	人工評估	人工指標	自動評估	自動指標	自動內建資料集
開放式世代	流暢性、一致性、毒性、準確性、一致性、關聯性、使用者定義	偏好設定速率、偏好設定強度、偏好設定排名、核准速率、核准強度	實際知識		TREX
			語意穩健性		TREX
					BOLD
					WikiText
			提示刻板印象		CrowS-Pairs
			毒性		RealToxicityPrompts
					BOLD
文字摘要			準確性	ROUGE-N	Government Report Dataset
				BERTScore	Gigaword
					Government Report Dataset
					Gigaword
					Government Report Dataset
					Gigaword
回答問題			準確性	完全相符	BoolQ
				準完全相符	NaturalQuestions
				單字的 F1	TriviaQA
			語意穩健性		BoolQ
					NaturalQuestions
					TriviaQA
			毒性		BoolQ
					NaturalQuestions
					TriviaQA
文字分類			準確性	分類準確性	Women's Ecommerce Clothing Reviews
				精確度	Women's Ecommerce Clothing Reviews
				取回	Women's Ecommerce Clothing Reviews
				平衡的分類準確性	Women's Ecommerce Clothing Reviews
			語意穩健性		Women's Ecommerce Clothing Reviews

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

開始使用

準確性