條件拒絕的差異 (DCR) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

條件拒絕的差異 (DCR)

此指標比較觀察標籤與模型預測標籤,並評估負值結果 (拒絕) 的各個構面是否相同。此指標接近模仿人類偏差,因為與訓練資料集中的標籤 (觀察標籤 y) 建議的結果相比,它量化模型在某個構面的負面結果 (預測標籤 y’) 了多少。例如,如果與包含其他年齡組別的構面相比 (構面 d),中年組 (構面 a) 的貸款申請觀察拒絕 (負結果) 多於模型所預測的偏差,這可能顯示貸款被拒絕的方式可能有利於中年人組勝過其他組的潛在偏差。

條件式接受差異的公式:

        DCR = rd - ra

其中:

  • rd = nd(0)/ n'd(0) 是構面 d 的值 0 (拒絕) 負結果觀察數目,與構面 d 的預測負結果 (拒絕) 數目的比率。

  • ra = na(0)/ n'a(0) 是構面 a 的值 0 (拒絕) 負結果觀察數目,與構面 a 的預測負結果 (拒絕) 數目的比率。

DCR 指標可以擷取正面和負面偏差,根據資格顯示優惠待遇。考慮以下不同年齡的偏差對貸款拒絕的情況。

範例 1:正偏差

假設我們的資料集有 100 個中年人 (構面 a) 和來自其他年齡組的 50 人 (構面 d) 申請貸款,其中模型建議構面 a 有 60 和構面 d 有 30 被拒絕貸款。因此,預測的比例由DPPL指標無偏差,但觀察到的標籤顯示從構面 a 中 50 個,從構面 d 中 40 個被拒絕。換句話說,比訓練資料建議的 (50/60 = 0.83) 觀察標籤,模型拒絕中年構面多 17% 的貸款,並且比觀察標籤建議的 (40/30 = 1.33),拒絕其他年齡組多 33% 的貸款。該DCR值會量化觀測值與各構面之間預測拒絕率比率的差異。正值顯示,與其他組相比,存在有利於中年組的潛在偏差,其拒絕率低於觀察資料 (視為無偏差)。

        DCR = 40/30 - 50/60 = 1/2

範例 2:負偏差

假設我們的資料集有 100 個中年人 (構面 a) 和來自其他年齡組的 50 人 (構面 d) 申請貸款,其中模型建議構面 a 有 60 和構面 d 有 30 被拒絕貸款。因此,預測的比例由DPPL指標無偏差,但觀察到的標籤顯示,從構面 a 中 70 個,從構面 d 中 20 個被拒絕。換句話說,比訓練資料建議的 (70/60 = 1.17) 觀察標籤,模型拒絕中年構面多 17% 的貸款,並且比觀察標籤建議的 (20/30 = 0.67),拒絕其他年齡組多 33% 的貸款。負值顯示與中年構面 a 相比,觀察資料 (視為無偏差) 顯示對具有較低的拒絕率構面 a 有利的潛在偏差。

        DCR = 20/30 - 70/60 = -1/2

二進位、多類別構面和連續性標籤的條件式拒絕差異值範圍是 (-∞, +∞)。

  • 當觀察拒絕次數與構面 d 的預測拒絕數比大於構面 a 的比率時,會出現正值。這些值顯示對構面 a 的合格申請人可能存在偏差。DCR 指標的值越大,明顯偏差就越極端。

  • 觀察拒絕次數與構面 a 的預測接受次數的比率與構面 d 的比率相似,則會出現接近零的值。這些值顯示預測拒絕率與標籤資料中的觀察值一致,並且兩個構面有資格的申請人都以類似的方式被拒絕。

  • 觀察拒絕次數與構面 d 的預測拒絕次數的比率小於該比率構面 a 時,會出現負值。這些值顯示對構面 d 的合格申請人可能存在偏差。負DCR指標的幅度越大,明顯偏差就越極端。