本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
預測標籤 (CDDPL) 中的條件人口統計差異
人口統計差異指標 (DDPL) 決定構面 d 在預測拒絕的標籤中是否比預測接受標籤有更大的比例。它可以比較預測拒絕比例和構面的預測接受比例的差異。此指標與預訓練 CDD 指標完全相同,不同之處在於它是用預測標籤而不是觀察標籤上運算的。此指標位於範圍 (-1, +1)。
構面 d 標籤的人口統計差異預測公式如下:
DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)
其中:
-
n'(0) = n'a(0) + n'd(0) 是構面 a 和 d 的預測拒絕標籤數目。
-
n'(1) = n'a(1) + n'd(1) 是構面 a 和 d 的預測接受標籤數目。
-
PdR(y'0) 是預測拒絕標籤 (值 0) 在構面 d 中的比例。
-
PdA(y'1) 是預測接受標籤 (值 1) 在構面 d 中的比例。
預測標籤的條件式人口統計差異 (CDDPL) 指標中,需要在定義資料集上子組階層的屬性上調控 DDPL,以排除辛普森悖論。重組可以為不太有利構面提供明顯人口統計差異的原因分析。經典案例出現在柏克萊入學的情況下,男性被接受的比率比女性更高。但是,當檢查系所的子組時,證明個系所的女性的入學率高於男性。說明女性申請系所的接受率低於男性。檢視子組接受率發現,對於接受率較低的系所來說,女性的實際接受率高於男性。
CDDPL 指標針對資料集屬性所定義的子組中所有差異提供的單一量值,方法是將它們平均。它被定義為每個子組的預測標籤 (DDPLi) 中人口統計差異的加權平均值,每個子組差異均按照包含的觀察次數呈比例加權。預測標籤的條件式人口統計差異公式如下:
CDDPL = (1/n)*∑ini *DDPLi
其中:
-
∑ini = n 是觀察的總數且 ni 是每個子組的觀察值數目。
-
DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) 是子組預測標籤中的人口統計差異。
因此,預測標籤 (DDPLi) 中的子組的人口統計差異是預測拒絕標籤的比例,與每個子組預測接受標籤的比例間差異。
二進位、多類別和連續性結果的 DDPL 值範圍為 [-1, +1]。
-
+1:當構面 a 或子組沒有預測拒絕標籤,且構面 d 或子組沒有預測接受標籤時。
-
正值顯示預測標籤中存在人口統計差異,因為構面 d 或子組在預測拒絕的標籤中比預測接受標籤的比例大。值越大差異越大。
-
接近零的值顯示平均而言沒有人口統計差異。
-
負值顯示預測標籤中存在人口統計差異,因為構面 a 或子組在預測拒絕標籤中的比例大於預測的接受標籤的比例。值越低差異越大。
-
-1:當構面 d 或子組沒有預測的拒絕襟扣,並且構面 a 或子組沒有預測的接受襟扣時。