本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
差別影響 (DI)
預測標籤指標中的正值比例差異可以用比例的形式評估。
預測標籤指標中正比例的比較可以用比例的形式進行評估,而不是差異,就像使用預測標籤中正比例的差異 (DPPL)。差別影響 (DI) 指標被定義為構面 d 的正值預測的比例 (y = 1) 超過構面 a 的正值預測 (y' = 1)。例如,如果模型預測將放貸給 60% 的中年人群 (構面 a) 和 50% 的其他年齡組 (構面 d),則 DI = .5/.6 = 0.8,這顯示構面 d 代表的其他年齡組產生正偏差和副影響。
對於預測標籤的比例公式:
DI = q'd/q'a
其中:
-
q'a = n'a(1)/na 是得到值 1 正值結果的構面 a 預測比例。在我們的例子中,預計獲得貸款核准的中年構面的比例。這裡 n'a(1) 代表構面 a 的項目數目,其得到一個正值預測結果。且 na 是構面 a 的項目數目。
-
q'd = n'd(1)/nd 是得到值 1 正值結果的構面 d 預測比例。在我們的例子中,老年人和年輕人的構面預計將獲得貸款核准。這裡 n'd(1) 代表構面 d 的項目數目,其得到一個正值預測結果。且 nd 是構面 d 的項目數目。
對於二進位、多類別構面和連續性標籤,DI 值範圍內的間隔 [0, ∞)。
-
小於 1 的值顯示構面 a 的預測正值結果比構面 d 更高比例。這被稱為正偏差。
-
1 值顯示人口統計奇偶性。
-
大於 1 的值顯示構面 d 的預測正值結果比構面 a 更高比例。這被稱為負偏差。