本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon 基岩 (主控台) 中檢閱自動化模型評估任務的指標
您可以使用 Amazon 基岩主控台檢閱報告中顯示的自動模型評估任務的指標。
在模型評估報告卡中,您會看到您提供或選取的資料集中的提示總數,以及收到回應的提示數量。如果回應數量少於輸入提示數量,請確保在 Amazon S3 儲存貯體中檢查資料輸出檔。提示可能導致模型發生錯誤,並且沒有擷取任何推論。只有來自模型的回應才會用於指標計算。
使用下列程序在 Amazon Bedrock 主控台上檢閱自動模型評估任務。
-
開啟 Amazon Bedrock 主控台。
-
從導覽窗格中選擇模型評估。
-
接下來,在模型評估表中找到您要檢閱的自動化模型評估任務的名稱。接著選擇該名稱。
在所有與語意強健性相關的指標中,Amazon Bedrock 擾動會以下列方式提示:將文字轉換為所有小寫字母、鍵盤錯別字、將數字轉換為單字、隨機變更為大寫,以及隨機新增/刪除空格。
開啟模型評估報告後,您可以檢視摘要的指標,以及任務的任務組態摘要。
對於建立任務時指定的每個指標和提示資料集,您會看到一張卡片,以及為該指標指定的每個資料集的值。計算此值的方式會根據您選取的任務類型和指標而變更。
將每個可用指標套用至一般文字產生任務類型時的計算方式
-
準確度:對於此量度,該值是使用真實世界的知識分數 (RWK分數) 來計算。RWK分數檢查模型對真實世界的事實知識進行編碼的能力。高RWK分表示您的模型正確。
-
強健性:對於此指標,使用語意強健性來計算值。這是使用單字錯誤率計算出來的。語意強健性衡量模型輸出由於輸入中微小的語意保留擾動而發生的變化。這種擾動的強健性是一種理想的屬性,因此低語意強健性分數表示您的模型表現良好。
我們考慮的擾動類型是:將文字轉換為所有小寫字母、鍵盤錯別字、將數字轉換為單字、隨機變更為大寫字母,以及隨機新增/刪除空格。資料集中的每個提示都會擾動約 5 次。然後,每個擾動的回應都會傳送進行推論,並用於自動計算強健性分數。
-
毒性:對於此指標,該值是使用解毒演算法中的毒性來計算。低毒性值表示您選擇的模型沒有產生大量的有毒內容。要了解有關排毒算法的更多信息並查看毒性的計算方式,請參閱上的排毒
算法。 GitHub
套用至文字摘要任務類型時的每個可用指標的計算方式
-
準確度:此量度的值是使用「BERT分數」來計算。BERT分數是使用模型中預先訓練的上下文嵌入來BERT計算的。該分數是透過餘弦類似性配對候選和參考句子中的單字。
-
強健性:對於此指標,計算的值為百分比。它通過服用(增量BERTScore/BERTScore)X 100 計算。Delta BERTScore 是資料集中擾動提示與原始提示之間的BERT分數差異。資料集中的每個提示都會擾動約 5 次。然後,每個擾動的回應都會傳送進行推論,並用於自動計算強健性分數。分數越低,表示選取的模型越強固。
-
毒性:對於此指標,該值是使用解毒演算法中的毒性來計算。低毒性值表示您選擇的模型沒有產生大量的有毒內容。要了解有關排毒算法的更多信息並查看毒性的計算方式,請參閱上的排毒
算法。 GitHub
套用至問答任務類型時的每個可用指標的計算方式
-
準確度:針對此指標計算出的值是 F1 分數。F1 分數的計算方式是將精確度分數 (正確預測與所有預測的比率) 除以取回分數 (正確預測與相關預測總數的比率)。F1 分數範圍從 0 到 1,值越高表示效能越好。
-
強健性:對於此指標,計算的值為百分比。其計算方式是採用 (Delta F1 / F1) X 100。Delta F1 是資料集中擾動提示與原始提示之間 F1 分數的差異。資料集中的每個提示都會擾動約 5 次。然後,每個擾動的回應都會傳送進行推論,並用於自動計算強健性分數。分數越低,表示選取的模型越強固。
-
毒性:對於此指標,該值是使用解毒演算法中的毒性來計算。低毒性值表示您選擇的模型沒有產生大量的有毒內容。要了解有關排毒算法的更多信息並查看毒性的計算方式,請參閱上的排毒
算法。 GitHub
套用至文字分類任務類型時的每個可用指標的計算方式
-
準確度:針對此指標計算出的值是準確度。準確度是將預測類別與其基本事實標籤進行比較的評分。較高的準確度表示您的模型正確地根據提供的基本事實標籤對文字進行分類。
-
強健性:對於此指標,計算的值為百分比。它是通過取(增量分類準確度分數/分類準確度分數)x 100 計算的。Delta 分類準確度分數是擾動提示的分類準確度分數與原始輸入提示之間的差異。資料集中的每個提示都會擾動約 5 次。然後,每個擾動的回應都會傳送進行推論,並用於自動計算強健性分數。分數越低,表示選取的模型越強固。