本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
條件式接受的差異 (DCAcc)
此指標將比較觀察標籤與模型預測標籤,並評估各個構面獲得預測正值結果是否相同。此指標接近模仿人類偏差,因為與訓練資料集中的標籤 (標籤 y) 相比,它量化模型在某個構面的正面結果 (標籤 y') 了多少。例如,如果與包含其他年齡組 (構面 d) 相比,在中年組 (構面 a) 的貸款申請訓練資料集中觀察接受次數 (正值結果),比不同資格的模型預測要多。這可能表示貸款核准方式存在有利於中年族群的潛在偏差。
條件式接受差異的公式:
DCAcc = ca - cd
其中:
-
ca = na(1)/ n'a(1) 是構面 a 的值 1 (接受) 的觀察正值結果數目,與構面 a 的預測的正結果 (接受) 數目比率。
-
cd = nd(1)/ n'd(1) 是構面 d 值 1 (接受) 觀察正值結果數目,與構面 d 的預測正結果 (接受) 的預測數目比率。
DCAcc 指標可以擷取正值和負偏差,這些偏差可根據資格揭露偏好的待遇。考慮以下不同年齡的貸款接受偏差情況。
範例 1:正偏差
假設我們的資料集有 100 個中年人 (構面 a) 和來自其他年齡組的 50 人 (構面 d) 申請貸款,其中模型建議構面 a 有 60 和構面 d 有 30 給予貸款。因此,相對於 DPPL 指標,預測比例是無偏差,但觀察標籤顯示構面 a 有 70 和構面 d 有 20 獲得了貸款。換句話說,比訓練資料建議的 (70/60 = 1.17) 觀察標籤,模型允許中年構面多 17% 的貸款,並且比觀察標籤建議的 (20/30 = 0.67),允許其他年齡組多 33% 的貸款。DCAcc 值的計算提供以下內容:
DCAcc = 70/60 - 20/30 = 1/2
正值表示對中年構面 a 有潛在偏差,與其他構面 d 相比,接受率低於觀察資料 (視為無偏差)。
範例 2:負偏差
假設我們的資料集有 100 個中年人 (構面 a) 和來自其他年齡組的 50 人 (構面 d) 申請貸款,其中模型建議構面 a 有 60 和構面 d 有 30 給予貸款。因此,相對於 DPPL 指標,預測比例是無偏差,但觀察標籤顯示構面從面 a 有 50 而構面 d 有 40 獲得了貸款。換句話說,比訓練資料建議的 (50/60 = 0.83) 觀察標籤,模型允許中年構面多 17% 的貸款,並且比觀察標籤建議的 (40/30 = 1.33),允許其他年齡組多 33% 的貸款。DCAcc 值的計算提供以下內容:
DCAcc = 50/60 - 40/30 = -1/2
負值顯示與中年構面 a 相比,觀察資料 (視為無偏差) 顯示構面 d 具有較低接受率的潛在偏差。
請注意,您可以使用 DCAcc 來協助您偵測潛在的 (非刻意) 偏差,方法是以人力介入設定監督模型預測。例如,假設模型的預測 y' 是無偏差,但最終決定是由一個人 (可能使用其他功能) 做出的,他們可以改變模型預測以生成 y' 的新版本和最終版本。人類的額外處理可能會無意中拒絕一個構面不成比例數字的貸款。DCAcc 可協助偵測此類潛在的偏差。
二進位、多類別構面和連續性標籤的條件式接受差異值範圍是 (-∞, +∞)。
-
當與構面 a 的預測接受次數相比,觀察接受次數比率高於構面 d 的相同比率時,會出現正值。這些值顯示對構面 a 的合格申請人可能存在偏差。比率的差異越大,偏差越明顯越極端。
-
當構面 a 的預測接受數目與構面 d 的預測接受數目相似時,會出現接近零的值。這些值顯示預測的接受率與標籤資料中的觀察值一致,並且兩個構面的合格申請人都以類似的方式被接受。
-
當觀察接受次數與構面 a 的預測接受次數小於構面 d 的比率時,會出現負值。這些值顯示對構面 d 的合格申請人可能存在偏差。比率的差異值越負,明顯的偏差就越極端。