預先訓練資料偏差 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

預先訓練資料偏差

演算法偏差、識別性、公平性和相關主題已經跨領域 (例如法律,政策和電腦科學) 進行研究。一個電腦系統可能會被認為是偏差,如果它能識別某些個人或個人群體。支援這些應用程式的機器學習模型會從資料中學習,而這些資料可能反映散度或其他固有的偏差。例如,訓練資料可能無法對各種人口統計群組具有足夠的代表性,或者可能包含偏差的標籤。對表現出這些偏差的資料集進行訓練的機器學習模型最終可能會學習它們,然後再現或加劇預測中的偏差。機器學習領域提供了解決偏差的機會,方法是在機器學習 (ML) 生命週期的每個階段進行偵測並對其進行測量。您可以使用 Amazon SageMaker Clarify 來判斷用於訓練模型的資料是否編碼任何偏差

您可以在訓練前和訓練後衡量偏差,並在將模型部署到端點以進行推論,之後對照基準進行監控。訓練前偏差指標的設計目的是在使用原始資料訓練模型之前,先偵測和衡量其偏差。使用的指標與模型無關,因為它們不依賴任何模型輸出。但是,有不同的公平性概念需要採取不同的偏差量值。Amazon SageMaker Clarify 提供偏差指標來量化各種公平性標準。

如需偏差指標的詳細資訊,請參閱了解 Amazon SageMaker Clarify 如何協助在 Finance 中偵測機器學習的偏差和公平性措施 Machine Learning

Amazon SageMaker Clarify 偏見和公平條款

SageMaker Clarify 使用以下術語來討論偏差和公平性。

功能

一個被觀察現象的個體可衡量屬性或特徵,包含於用於表格式資料的列。

標籤

訓練機器學習模型的目標的功能。稱為觀察標籤或觀察結果

預測標籤

如模型所預測的標示。也稱為預測結果

樣本

由功能值和標籤值描述的觀察實體,包含於表格式資料的列中。

資料集

樣本的集合。

偏差

訓練資料中的不平衡或模型跨不同群組 (例如年齡或收入等級) 的預測行為。偏差可能是由用於訓練您模型的資料或演算法所產生的。例如,如果機器學習 (ML) 模型主要針對中年人的資料進行訓練,則在進行涉及年輕人和老年人的預測時,可能會較不準確。

偏差指標

傳回指示潛在偏差數值的函式。

偏差報告

指定資料集的偏差指標集合,或是資料集和模型的組合。

正標籤值

對樣本中觀察人口統計組有利的標籤值。換句話說,將樣本指定為具有正值的結果

負標籤值

對樣本中觀察人口組不利的標籤值。換句話說,將樣本指定為具有負結果

群變數

資料集的類別資料欄,用於形成子群組,以測量條件人口統計差異 (CDD)。僅對於此指標關於辛普森的悖論是必需的。

構面

包含與衡量偏差相關之屬性的欄或功能。

構面值

偏差可能有利或不有利屬性的功能值。

預測機率

正如模型所預測的,具有正值或負面結果的樣本的機率。

範例筆記本

Amazon SageMaker Clarify 提供下列範例筆記本進行偏差偵測:

此筆記本已經過驗證,只能在 Amazon SageMaker Studio 中執行。如果您需要如何在 Amazon SageMaker Studio 中開啟筆記本的指示,請參閱 建立或開啟 Amazon SageMaker Studio Classic Notebook。如果系統提示您選擇核心,請選擇 Python 3 (資料科學)