本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
預測標籤中正值比例的差異 (DPPL)
預測標籤 中正值比例的差異 (DPPL) 指標決定模型是否針對每個構面預測差別結果。其被定義為構面 a 正值預測的比例 (y’ = 1) 與構面 d 的正值預測 (y’ = 1) 的比例之間的差異。例如,如果模型預測將放貸給 60% 的中年人群 (構面 a) 和 50% 的其他年齡組 (構面 d),則可能會偏向構面 d。在此範例中,您必須判斷 10% 的差異是否是案例的重要偏差。
標籤比例差異 (DPL) 的比較,這是訓練前偏差的指標,而 DPPL 是訓練後偏差的指標,則評估訓練後資料集中最初存在的正比例偏差是否變更。如果 DPPL 大於 DPL,則正比例的偏差會在訓練後增加。如果 DPPL 小於 DPL,則模型在訓練後不會增加正比例的偏差。比較 DPL 與 DPPL 並不保證模型會減少所有維度的偏差。例如,在考慮 反事實翻轉測試 (FT)或 等其他指標時,模型可能仍會有偏差準確度差異 (AD)。如需偏差偵測的詳細資訊,請參閱部落格文章 了解 Amazon SageMaker Clarify 如何協助偵測偏差
DPPL 的公式為:
DPPL = q'a - q'd
其中:
-
q'a = n'a(1)/na 是得到值 1 正值結果的構面 a 預測比例。在我們的例子中,預計獲得貸款核准的中年構面的比例。這裡 n'a(1) 代表面 a 的項目數目,其得值 1 和的正值預測結果,且 na 是構面 a 的項目數目。
-
q'd = n'd(1)/nd 是得到值 1 正值結果的構面 d 預測比例。在我們的例子中,老年人和年輕人的構面預計將獲得貸款核准。這裡 n'd(1) 代表構面 d 的項目數目,其得到一個正值預測結果。且 nd 是構面 d 的項目數目。
如果 DPPL 足夠接近 0,這表示已經達成了訓練後的人口統計奇偶性。
對於二進位和多類別構面標籤,標準化 DPL 值的範圍在間隔 [-1, 1] 內。對於連續性標籤,值隨間隔 (-∞, +∞) 而變化。
-
正 DPPL 值顯示構面 a 與構面 d 相比,具有較高的預測正結果比例。
這被稱為正偏差。
-
DPPL 接近零的值顯示構面 a 和 d 間預測正值更相等的結果比例,值為零顯示完美的人口統計奇偶性。
-
負 DPPL 值顯示構面 d 與構面 a 相比,具有較高的預測正結果的比例。這被稱為負偏差。