在模型評估任務中使用提示資料集和可用的評估維度 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在模型評估任務中使用提示資料集和可用的評估維度

下列各節概述如何使用自動和人工模型評估任務。

模型評估任務

在模型評估任務中,評估任務是您希望模型根據提示中的資訊執行的任務。

您可以為每個模型評估任務選擇一種任務類型。使用下列各節進一步了解每個任務類型。每個區段也包含可用內建資料集的清單,以及只能在自動模型評估任務中使用的對應指標。

開放式世代

開放式文字產生是基礎模型任務,可針對沒有預先定義結構的提示產生自然語言回應,例如對聊天機器人的一般用途查詢。對於開放式文字產生,Foundation Model Evaluations (FMEval) 可以沿著下列維度評估您的模型。

  • 事實知識 – 評估模型編碼事實知識的能力。FMEval 可以根據自己的自訂資料集來測量模型,或根據 使用內建資料集 TREX 開放原始碼資料集。

  • 語意穩健性 – 評估模型輸出因輸入中的小型語意保留變更而產生的變更量。FMEval 會測量模型輸出如何因鍵盤錯別字、隨機變更為大寫,以及隨機新增或刪除空格而變更。

  • 提示刻板印象 – 測量模型在其回應中編碼偏差的機率。這些偏見包括種族、性別、性取向、宗教、年齡、國籍、殘疾、身體外觀和社會經濟狀態。FMEval 可以根據自己的自訂資料集來測量模型回應,或根據 使用內建資料集 CrowS-Pairs 開放原始碼挑戰資料集。

  • 毒性 – 使用毒性偵測模型評估文字。FMEval 檢查您的模型是否有性參考資料、粗魯、不合理、仇恨或攻擊性的評論、褻瀆、侮辱、調情、身分攻擊和威脅。FMEval 可以根據自己的自訂資料集來測量模型,或根據 使用內建資料集 RealToxicityPrompts, RealToxicityPromptsChallenging、 和 BOLD 資料集。

    RealToxicityPromptsChallenging 是 的子集 RealToxicityPrompts 用於測試大型語言模型的限制 (LLM)。它還識別LLMs易產生有毒文字的區域。

    您可以使用下列毒性偵測器來評估模型:

文字摘要

文字摘要用於任務,例如建立新聞、法律文件、學術論文、內容預覽和內容策劃的摘要。以下內容可能會影響回應品質:模棱兩可、一致性、偏差、用於訓練基礎模型的文字流暢程度,以及資訊遺失、準確性、相關性或內容不符。FMEval 可以根據自己的自訂資料集評估模型,或根據 使用內建資料集 Government Report Dataset、 和 Gigaword 資料集。對於文字摘要, FMEval可以評估您的模型是否有下列項目:

  • 準確性 – 數值分數,指出摘要與可接受作為黃金標準的參考摘要的相似性。高數值分數表示摘要具有高品質。低數值分數表示摘要不佳。下列指標用於評估摘要的準確性:

  • 毒性 – 使用毒性偵測器模型計算產生的摘要分數。如需詳細資訊,請參閱上一個針對開放式世代任務的毒性一節。

  • 語意穩健性 – 衡量模型文字摘要的品質因輸入中的微小、語意保留變更而改變的程度。這些變更的範例包括錯字、大寫的隨機變更,以及空格的隨機新增或刪除。語意穩健性使用不中斷的文字摘要與中斷的文字摘要之間的絕對準確度差異。準確度演算法使用 ROUGE-N, Meteor、 和 BERTScore 指標,如本節先前所述。

回答問題

問題回答用於產生自動服務台回應、資訊擷取和數位學習等任務。FMEval 可以根據自己的自訂資料集評估模型,或根據 使用內建資料集 BoolQ, TriviaQA、 和 Natural Questions 資料集。對於問題回答, FMEval可以評估您的模型是否具有下列特性:

  • 準確性 – 比較產生的回應與參考中提供的問題回答對的平均分數。分數是以下列方法進行平均:

    • 完全相符 – 的二進位分數1會指派給完全相符,0否則會指派給完全相符。

    • 準完全相符 – 在標點符號和文法文章 (例如 、a 和) 移除 (標準化) 之後, 的二進位分數1會指派給相符項目。

    • 單字的 F1 – F1 分數,或標準化回應和參考之間的精確度和召回諧波平均值。F1 分數等於精確度乘以召回的兩倍,除以精確度 (P) 和召回 (R) 的總和,或 F1 = (2*P*R) / (P + R)。

      在先前的計算中,精確度定義為真陽性 (TP) 的數量除以真陽性和偽陽性 (FP) 的總和,或 P = (TP)/(TP+FP)。

      召回定義為真陽性數除以真陽性和假陰性 (FN) 的總和,或 R = (TP)/(TP+FN)。

      較高的 F1 over words 分數表示更高品質的回應。

  • 語意穩健性 – 衡量模型文字摘要的品質因輸入中的微小、語意保留變更而產生多少變化。這些變更的範例包括鍵盤錯字、不正確的數字轉換為單字、隨機變更為大寫,以及隨機新增或刪除空格。語意穩健性使用不中斷的文字摘要與中斷的文字摘要之間的絕對準確度差異。準確度是使用精確匹配、準精確匹配和 F1 對單字進行測量,如前所述。

  • 毒性 – 分數會使用毒性偵測器模型評估產生的答案。如需詳細資訊,請參閱上一個針對開放式世代任務的毒性一節。

分類

分類用於將文字分類為預先定義的類別。使用文字分類的應用程式包括內容推薦、垃圾郵件偵測、語言識別和社交媒體上的趨勢分析。不平衡、不明確、嘈雜的資料、標籤偏差是可能導致分類錯誤的一些問題。FMEval 根據 的內建資料集來評估您的模型 Women’s ECommerce Clothing Reviews 資料集,和/或針對您自己的提示資料集進行下列操作。

  • 準確性 – 將預測類別與其標籤進行比較的分數。準確度是使用下列指標來測量:

    • 分類準確性1 如果預測標籤等於真實標籤,則為 ,0否則則為 的二進位分數。

    • 精確度 – 在整個資料集上計算的真陽性與所有陽性的比率。在減少誤報很重要時,精確度是適當的措施。每個資料點的分數可以使用 參數的下列值彙總multiclass_average_strategy。每個參數都列在下列範例中。

    • 召回 – 在整個資料集上計算的真陽性與真陽性和假陰性總和的比率。減少誤報很重要時,召回是適當的措施。每個資料點的分數可以使用 參數的下列值彙總multiclass_average_strategy

      • micro (預設) – 真陽性總和除以所有類別的真陽性和假陰性總和。此彙總類型可測量模型的整體預測準確度,同時平均考量所有類別。例如,此彙總可以評估模型正確分類具有任何疾病的患者的能力,包括罕見疾病,因為它為所有類別提供相等的權重。

      • macro – 為每個類別計算的回收值總和除以類別數量。此彙總類型提供每個類別模型預測準確度的測量,且權重與每個類別相等。例如,此彙總可以評估模型預測所有疾病的能力,無論每個條件的普遍性或罕見性如何。

      • samples (僅限多類別分類) – 所有樣本的真陽性總和與所有樣本的真陽性和假陰性總和的比率。對於多類別分類,範例包含一組每個類別的預測回應。此彙總類型提供每個範例對於多類別問題的召回的精細測量。例如,由於依樣本彙總會平均處理每個樣本,因此此彙總可以評估模型預測罕見疾病患者正確診斷的能力,同時將誤報降至最低。

      • weighted – 一個類別的權重乘以相同類別的召回,加總至所有類別。此彙總類型提供整體召回的指標,同時在類別之間適應不同的重要性。例如,此彙總可以評估模型預測患者正確診斷的能力,並為威脅生命的疾病提供更高的權重。

      • binary – 為值 指定的類別計算的回收pos_label。此彙總類型會忽略未指定的類別,並提供單一類別的整體預測準確性。例如,此彙總可以評估模型篩選特定高傳染性生命威脅疾病族群的能力。

      • none – 為每個類別計算的召回。類別特定的召回可協助您解決資料中的類別不平衡,因為各類別的錯誤懲罰差異很大。例如,此彙總可以評估模型識別可能具有特定疾病的所有患者的能力。

    • 平衡分類準確度 (BCA) – 回收和真實負率除2以二進位分類的總和。真實負數率是真實負數除以真實負數和偽陽性的總和。對於多類別分類, BCA 計算方式為每個類別的回收值總和除以類別數量。BCA 當預測誤報和誤報的懲罰很高時, 會有所幫助。例如, BCA可以評估您的模型透過侵入性治療預測多種高傳染性致命疾病的能力。

  • 語意穩健性 – 評估模型輸出因輸入中的小型語意保留變更而產生的變更量。FMEval 會測量模型輸出,因為鍵盤錯字、大寫隨機變更,以及空格的隨機新增或刪除。語意穩健性會計算未擾動的文字摘要與擾動的文字摘要之間的絕對準確度差異。

基礎模型評估的類型

下列各節提供基礎模型評估的人工和演算法類型的詳細資訊。

人工評估

若要依人工評估模型,您必須定義指標和相關聯的指標類型。如果您想要評估多個模型,您可以使用比較或個別評分機制。如果您想要評估一個模型,則必須使用個別的評分機制。下列評分機制可以套用至任何文字相關的任務:

  • (比較) Likert 量表 - 比較 – 人工評估人員會根據您的指示,在 5 點 Likert 量表的兩個回應之間指出其偏好。在最終報告中,結果會依您整個資料集的偏好設定強度,顯示為評分的長條圖。在指示中定義 5 點量表的重點,讓您的評估者了解如何根據您的期望評定回應。

  • (比較) 選擇按鈕 – 允許人工評估器根據您的指示,使用選項按鈕指示另一個回應的偏好回應。最終報告中的結果會以每個模型的工作者偏好的回應百分比顯示。在指示中清楚說明您的評估方法。

  • (比較) 順序排名 – 允許人工評估者根據指示,從 1 開始依序將偏好的回應排序至提示。在最終報告中,結果顯示為整個資料集上評估者排名的長條圖。請務必在指示中定義 排名的1含義。

  • (個別) 向上/向下移動 – 允許人工評估器根據您的指示,將模型的每個回應評為可接受或不可接受的。在最終報告中,結果會顯示每個模型獲得拇指調高評分的評估者評定的評定總數百分比。您可以使用此評分方法評估一個或多個模型。如果您在包含兩個模型的評估中使用此功能,UI 會針對每個模型回應,向工作團隊顯示拇指向上或向下選項。最終報告將個別顯示每個模型的彙總結果。在您的工作團隊指示中定義什麼是可接受的回應。

  • (個別) Likert 量表 - 個別 – 允許人工評估者根據您的指示,在 5 點 Likert 量表上指出他們核准模型回應的強度。在最終報告中,結果會顯示整個資料集上評估者 5 點評分的長條圖。您可以使用此評分方法進行評估包含一或多個模型。如果您在包含多個模型的評估中選擇此評分方法,則每個模型回應都會向您的工作團隊顯示 5 點 Likert 量表。最終報告將個別顯示每個模型的彙總結果。在您的指示中定義 5 點量表上的重點,讓您的評估者了解如何根據您的期望評定回應。

自動評估

自動評估可以利用內建資料集和演算法,或者您可以攜帶自己的資料集,這些提示是針對您的使用案例。每個任務的內建資料集各不相同,並列在下列各節中。如需任務及其相關指標和資料集的摘要,請參閱下列基礎模型摘要評估一節中的表格。

基礎模型評估摘要

下表摘要說明人工和自動評估的所有評估任務、指標和內建資料集。

任務 人工評估 人工指標 自動評估 自動指標 自動內建資料集

開放式世代

流暢性、一致性、毒性、準確性、一致性、關聯性、使用者定義

偏好設定速率、偏好設定強度、偏好設定排名、核准速率、核准強度

實際知識

TREX

語意穩健性

TREX

BOLD

WikiText

提示刻板印象

CrowS-Pairs

毒性

RealToxicityPrompts

BOLD

文字摘要

準確性

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

回答問題

準確性

完全相符

BoolQ

準完全相符

NaturalQuestions

F1 越過單字

TriviaQA

語意穩健性

BoolQ

NaturalQuestions

TriviaQA

毒性

BoolQ

NaturalQuestions

TriviaQA

文字分類

準確性

分類準確性

Women's Ecommerce Clothing Reviews

精確度

Women's Ecommerce Clothing Reviews

取回

Women's Ecommerce Clothing Reviews

平衡的分類準確性

Women's Ecommerce Clothing Reviews

語意穩健性

Women's Ecommerce Clothing Reviews