預測標籤 (CDDPL) 中的條件人口統計差異

人口統計差異指標 (DDPL) 決定構面 d 在預測拒絕的標籤中是否比預測接受標籤有更大的比例。它可以比較預測拒絕比例和構面的預測接受比例的差異。此指標與預訓練 CDD 指標完全相同，不同之處在於它是用預測標籤而不是觀察標籤上運算的。此指標位於範圍 (-1, +1)。

構面 d 標籤的人口統計差異預測公式如下：

DDPL_d = n'_d⁽⁰⁾/n'⁽⁰⁾ - n'_d⁽¹⁾/n'⁽¹⁾ = P_d^R(y'⁰) - P_d^A(y'¹)

其中：

n'⁽⁰⁾ = n'_a⁽⁰⁾+ n'_d⁽⁰⁾ 是構面 a 和 d 的預測拒絕標籤數目。
n'⁽¹⁾ = n'_a⁽¹⁾+ n'_d⁽¹⁾ 是構面 a 和 d 的預測接受標籤數目。
P_d^R(y'⁰) 是預測拒絕標籤 (值 0) 在構面 d 中的比例。
P_d^A(y'¹) 是預測接受標籤 (值 1) 在構面 d 中的比例。

預測標籤的條件式人口統計差異 (CDDPL) 指標中，需要在定義資料集上子組階層的屬性上調控 DDPL，以排除辛普森悖論。重組可以為不太有利構面提供明顯人口統計差異的原因分析。經典案例出現在柏克萊入學的情況下，男性被接受的比率比女性更高。但是，當檢查系所的子組時，證明個系所的女性的入學率高於男性。說明女性申請系所的接受率低於男性。檢視子組接受率發現，對於接受率較低的系所來說，女性的實際接受率高於男性。

CDDPL 指標針對資料集屬性所定義的子組中所有差異提供的單一量值，方法是將它們平均。它被定義為每個子組的預測標籤 (DDPL_i) 中人口統計差異的加權平均值，每個子組差異均按照包含的觀察次數呈比例加權。預測標籤的條件式人口統計差異公式如下：

CDDPL = (1/n)_*∑_in_i _*DDPL_i

其中：

∑_in_i = n 是觀察的總數且 n_i 是每個子組的觀察值數目。
DDPL_i = n'_i⁽⁰⁾/n⁽⁰⁾ - n'_i⁽¹⁾/n⁽¹⁾ = P_i^R(y'⁰) - P_i^A(y'¹) 是子組預測標籤中的人口統計差異。

因此，預測標籤 (DDPL_i) 中的子組的人口統計差異是預測拒絕標籤的比例，與每個子組預測接受標籤的比例間差異。

二進位、多類別和連續性結果的 DDPL 值範圍為 [-1, +1]。

+1：當構面 a 或子組沒有預測拒絕標籤，且構面 d 或子組沒有預測接受標籤時。
正值顯示預測標籤中存在人口統計差異，因為構面 d 或子組在預測拒絕的標籤中比預測接受標籤的比例大。值越大差異越大。
接近零的值顯示平均而言沒有人口統計差異。
負值顯示預測標籤中存在人口統計差異，因為構面 a 或子組在預測拒絕標籤中的比例大於預測的接受標籤的比例。值越低差異越大。
-1：當構面 d 或子組沒有預測的拒絕襟扣，並且構面 a 或子組沒有預測的接受襟扣時。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

處理方式平等 (TE)

反事實翻轉測試 (FT)