本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
召回差異 (RD)
召回差異 (RD) 指標是有利構面 a 和不利構面 d 之間模型的召回差異。這些召回中的任何差異都是一種潛在的偏差形式。Recall 是真正的正率 (TPR),可測量模型正確預測應獲得正結果之案例的頻率。如果所有 y=1 情況都正確預測為該構面的 y'=1,那麼召回對於構面來說是完美的。當模型最小化稱為第二型錯誤的偽陰性時,召回更大。例如,模型會正確偵測到兩個不同組 (構面 a 和 d) 中有多少人符合貸款資格? 如果貸給構面 a 的召回率很高,但貸給構面 d 的召回率低,則差異提供了對屬於構面 d 組的偏差指標。
構面 a 和 d 的召回率差異的公式:
RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd
其中:
-
TPa 是構面 a 預測的真陽性。
-
FNa 是構面 a 預測的偽陰性。
-
TPd 是構面 d 預測的真陽性。
-
FNd 是構面 d 預測的偽陰性。
-
TPRa = TPa/(TPa + FNa) 是構面 a 的召回,或其真實正率。
-
TPRd TPd/(TPd + FNd) 是構面 d 的召回,或其真實正率。
例如,請考慮下列構面 a 和 d 的混淆矩陣。
混淆矩陣針對有利構面 a
類別 a 預測 | 實際結果 0 | 實際結果 1 | 總計 |
---|---|---|---|
0 | 20 | 5 | 25 |
1 | 10 | 65 | 75 |
總計 | 30 | 70 | 100 |
混淆矩陣針對不利構面 d
類別 d 預測 | 實際結果 0 | 實際結果 1 | 總計 |
---|---|---|---|
0 | 18 | 7 | 25 |
1 | 5 | 20 | 25 |
總計 | 23 | 27 | 50 |
召回差異的值是 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19,這顯示對構面 d 的偏差。
二進位和多類別分類的構面 a 和 d 之間的召回差異值範圍是 [-1, +1]。此指標不適用於連續性標籤的情況。
-
當構面 a 的召回率高於構面 d 時,會獲得正值。這表明模型在構面 a 找到更多真陽性,而不是構面 d,此為一種偏差形式。
-
接近零的值顯示正在比較構面的召回類似。這表明模型在這兩個構面中發現大約相同數目的真陽性,並且沒有偏差。
-
當構面 d 的召回率高於構面a 時,會獲得負值。這表明模型在構面 d 找到更多真陽性,而不是構面 a,此為一種偏差形式。