預測標籤中的條件人口統計差異 (CDDPL) - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

預測標籤中的條件人口統計差異 (CDDPL)

人口統計差異指標 (DDPL) 會判斷構面 d 是否比預測接受的標籤具有較大的預測拒絕標籤比例。它可以比較預測拒絕比例和構面的預測接受比例的差異。此指標與訓練前CDD指標完全相同,除了從預測的標籤計算,而不是觀察的標籤。此指標位於範圍 (-1, +1)。

構面 d 標籤的人口統計差異預測公式如下:

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = P dR (y'0) - P dA (y'1

其中:

  • n'(0) = n'a(0) + n'd(0) 是構面 ad 的預測拒絕標籤數目。

  • n'(1) = n'a(1) + n'd(1) 是構面 ad 的預測接受標籤數目。

  • PdR(y'0) 是預測拒絕標籤 (值 0) 在構面 d 中的比例。

  • PdA(y'1) 是預測接受標籤 (值 1) 在構面 d 中的比例。

需要預測標籤 (CDDPL) 指標中的條件式人口統計差異,該指標DDPL會針對在資料集上定義子群組分層的屬性進行條件,以排除 Simpson 的矛盾。重組可以為不太有利構面提供明顯人口統計差異的原因分析。經典案例出現在柏克萊入學的情況下,男性被接受的比率比女性更高。但是,當檢查系所的子組時,證明個系所的女性的入學率高於男性。說明女性申請系所的接受率低於男性。檢視子組接受率發現,對於接受率較低的系所來說,女性的實際接受率高於男性。

CDDPL 指標透過平均資料集的屬性,為資料集定義的子組中發現的所有差異提供單一測量。其定義為每個子群組的預測標籤 (DDPLi) 中人口統計差異加權平均值,每個子群組差異加權與 中的觀察數量成比例。預測標籤的條件式人口統計差異公式如下:

        CDDPL = (1/n)*i∑ni *DDPLi

其中:

  • ini = n 是觀察的總數且 ni 是每個子組的觀察值數目。

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = P iR (y'0) - P iA (y'1) 是子群組預測標籤中的人口統計差異。

因此,預測標籤 (DDPLi) 中子群組的人口統計差異是預測拒絕標籤的比例與每個子群組的預測接受標籤比例之間的差異。

二進位、多類別和連續結果DDPL的值範圍為 【-1,+1】。

  • +1:當構面 a 或子組沒有預測拒絕標籤,且構面 d 或子組沒有預測接受標籤時。

  • 正值顯示預測標籤中存在人口統計差異,因為構面 d 或子組在預測拒絕的標籤中比預測接受標籤的比例大。值越大差異越大。

  • 接近零的值顯示平均而言沒有人口統計差異。

  • 負值顯示預測標籤中存在人口統計差異,因為構面 a 或子組在預測拒絕標籤中的比例大於預測的接受標籤的比例。值越低差異越大。

  • -1:當構面 d 或子組沒有預測的拒絕襟扣,並且構面 a 或子組沒有預測的接受襟扣時。