條件人口統計差異 (CDD) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

條件人口統計差異 (CDD)

人口統計差異指標 (DD) 會決定構面在資料集中的拒絕結果是否比接受結果有更大的比例。在二進位情況下,有兩個構面,例如男性和女性,構成了資料集,不利構面被標籤為構面 d,有利被標籤為構面 a。例如,大學入學的案例,如果女性申請人佔被拒絕的申請人中的 46%,並且僅佔被接受的申請人中的 32%,我們認為存在人口統計的差異,因為女性被拒絕的比率超過被接受的比率。在這種情況下,女性申請人的標籤為構面 d。如果男性申請人佔被拒絕的申請人中的 54%,並且佔被接受的申請人中的 68% 獲接納的申請人,那麼在這構面並沒有人口統計上的差異,因為拒絕率低於接受率。在這種情況下,男性申請人的標籤為構面 a

不太有利構面 d 之人口統計差異的公式如下:

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1)

其中:

  • n(0) = na(0) + nd(0) 是有利構面 a 和弱勢構面 d 資料集中拒絕結果的總數。

  • n(1) = na(1) + nd(1) 是資料集中接受結果的有利構面 a 和弱勢構面 d 的總數。

  • PdR(y0) 是構面 d 中被拒絕結果(值為 0)的比例。

  • PdA(y1) 是在構面 d 中接受的結果(值 1)的比例。

在大學入學的例子中,女性的人口統計差異為 DDd = 0.46 - 0.32 = 0.14。男性為 DDa = 0.54 - 0.68 = - 0.14。

需要條件式人口統計差異 (CDD) 指標,以針對定義資料集上子群組分層的屬性條件 DD,以排除 Simpson 的矛盾。重組可以為不太有利構面提供明顯人口統計差異的原因分析。經典案例出現在柏克萊入學的情況下,男性被接受的比率比女性更高。在 DD 的範例計算中使用這個案例的統計資料。然而,當檢查系所子組時,證明女性的入學率高於男性,當以系所為條件的情況下。說明女性申請系所的接受率低於男性。檢查子組接受率顯示,對於接受率較低的系所,女性實際上的接受率高於男性。

CDD 指標透過平均資料集的屬性,為資料集定義的子組中發現的所有差異提供單一測量。其被定義為每個子組的人口統計差異 (DDi) 加權平均值,每個子組差異與包含的觀察數呈加權比例。條件式人口統計差異的公式如下:

        CDD = (1/n)*i∑ni *DDi

其中:

  • ini = n 是觀察的總數且 ni 是每個子組的觀察值數目。

  • DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) 是第 i 個子組的人口統計差異。

一個子組 (DDi) 的人口統計差異是拒絕結果的比例,和每個子組接受結果的比例之間差異。

對於完整資料集 DDd 或其條件化子組 DDi 的二進位結果 DD 值的範圍是 [-1, +1]。

  • +1:當構面 a 或子組沒有拒絕,且構面 d 或子組中沒有接受時

  • 正值顯示存在人口統計差異,因為構面 d 或子組在資料集中被拒絕的結果比例大於接受的結果比例。值越高,構面越不利,差異越大。

  • 負值顯示沒有人口統計差異,因為構面 d 或子組在資料集中的接受結果比例比被拒絕的結果更大。值越低,構面越有利。

  • -1:當構面 d 或子組中沒有拒絕,且在構面 a 或子組中沒有接受時

如果您未設定任何條件,則只有在 CDD 為零時,才會DPL為零。

該指標對於探索歐盟和英國非歧視法律和法理中的直接和間接歧視,以及客觀理由的概念非常有用。有關其他資訊,請參閱為什麼不能自動化公平性。本文件還包含柏克萊招生案例的相關資料和分析,該案例顯示如何條件化系所入學率子組說明辛普森悖論。