選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

預先訓練資料偏差

焦點模式
預先訓練資料偏差 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

演算法偏差、識別性、公平性和相關主題已經跨領域 (例如法律,政策和電腦科學) 進行研究。一個電腦系統可能會被認為是偏差,如果它能識別某些個人或個人群體。支援這些應用程式的機器學習模型會從資料中學習,而這些資料可能反映散度或其他固有的偏差。例如,訓練資料可能無法對各種人口統計群組具有足夠的代表性,或者可能包含偏差的標籤。對表現出這些偏差的資料集進行訓練的機器學習模型最終可能會學習它們,然後再現或加劇預測中的偏差。機器學習領域提供了解決偏差的機會,方法是在機器學習 (ML) 生命週期的每個階段進行偵測並對其進行測量。您可以使用 Amazon SageMaker Clarify 來判斷用於訓練模型的資料是否對任何偏差進行編碼

您可以在訓練前和訓練後衡量偏差,並在將模型部署到端點以進行推論,之後對照基準進行監控。訓練前偏差指標的設計目的是在使用原始資料訓練模型之前,先偵測和衡量其偏差。使用的指標與模型無關,因為它們不依賴任何模型輸出。但是,有不同的公平性概念需要採取不同的偏差量值。Amazon SageMaker Clarify 提供偏差指標,以量化各種公平性標準。

有關偏差指標的其他資訊,請參閱了解 Amazon SageMaker Clarify 如何協助偵測偏差機器學習在金融領域的公平性量值

Amazon SageMaker Clarify 偏差和公平性條款

SageMaker Clarify 使用下列術語來討論偏差和公平性。

功能

一個被觀察現象的個體可衡量屬性或特徵,包含於用於表格式資料的列。

標籤

訓練機器學習模型的目標的功能。稱為觀察標籤或觀察結果

預測標籤

如模型所預測的標示。也稱為預測結果

樣本

由功能值和標籤值描述的觀察實體,包含於表格式資料的列中。

資料集

樣本的集合。

偏差

訓練資料中的不平衡或模型跨不同群組 (例如年齡或收入等級) 的預測行為。偏差可能是由用於訓練您模型的資料或演算法所產生的。例如,如果機器學習 (ML) 模型主要針對中年人的資料進行訓練,則在進行涉及年輕人和老年人的預測時,可能會較不準確。

偏差指標

傳回指示潛在偏差數值的函式。

偏差報告

指定資料集的偏差指標集合,或是資料集和模型的組合。

正標籤值

對樣本中觀察人口統計組有利的標籤值。換句話說,將樣本指定為具有正值的結果

負標籤值

對樣本中觀察人口組不利的標籤值。換句話說,將樣本指定為具有負結果

群變數

形成用於衡量條件人口統計差距 (CDD) 子組的資料集的分類欄。僅對於此指標關於辛普森的悖論是必需的。

構面

包含與衡量偏差相關之屬性的欄或功能。

構面值

偏差可能有利或不有利屬性的功能值。

預測機率

正如模型所預測的,具有正值或負面結果的樣本的機率。

範例筆記本

Amazon SageMaker Clarify 提供下列用於偏差偵測的範例筆記本:

此筆記本已透過驗證,只能在 Amazon SageMaker Studio 中執行。如果您需要有關如何在 Amazon SageMaker Studio 中打開筆記本的說明,請參閱建立或開啟 Amazon SageMaker Studio Classic 筆記本。如果系統提示您選擇核心,請選擇 Python 3 (資料科學)

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。