기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
예측 레이블의 조건부 인구통계학적 차이(CDDPL)
인구통계학적 차이 지표(DDPL)는 패싯 d가 예측된 수락 레이블보다 예측된 거부 레이블의 비율이 더 큰지 여부를 결정합니다. 이를 통해 여러 패싯에 걸쳐 예측된 거부 비율과 예측된 승인 비율의 차이를 비교할 수 있습니다. 이 지표는 관찰된 지표 대신 예측된 레이블에서 계산된다는 점을 제외하면 훈련 전 CDD 지표와 정확히 동일합니다. 이 지표의 범위는 (-1, +1)입니다.
패싯 d의 예측된 레이블에서의 인구통계학적 차이를 구하는 공식은 다음과 같습니다.
DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = P dR(y'0) - P dA(y'1)
위치:
-
n'(0) = n'a(0) + n'd(0)은 패싯 a와 패싯 d에 대해 예측된 거부 레이블의 수입니다.
-
n'(1) = n'a(1) + n'd(1)은 패싯 a와 패싯 d에 대해 예측된 승인 레이블의 수입니다.
-
PdR(y'0)은 패싯 d에서 예측된 거부 레이블(값 0)의 비율입니다.
-
PdA(y'1)은 패싯 d에서 예측된 승인 레이블(값 1)의 비율입니다.
예측된 레이블(CDDPL) 지표의 조건부 인구통계학적 차이로, Simpson의 역설을 배제하려면 데이터 세트DDPL의 하위 그룹 계층을 정의하는 속성을 조건으로 합니다. 재군집화를 적용하며 덜 유리한 패싯에 대한 명백한 인구통계학적 차이의 원인을 파악하는 것이 가능해집니다. 한때 버클리대학교 입시에서 남성이 여성보다 전반적으로 더 높은 비율로 합격했던 것이 전형적인 사례입니다. 그러나 학과별 부분군을 조사하자, 학과별로 여성이 남성보다 입학률이 더 높은 것으로 나타났습니다. 여성이 남성보다 상대적으로 경쟁률이 낮은 학과에 지원했다는 것이 이에 대한 설명이었습니다. 부분군별로 경쟁률을 살펴본 결과 실제로 경쟁률이 낮은 학과에서 여성이 남성보다 더 높은 비율로 합격했던 것으로 나타났습니다.
CDDPL 지표는 데이터 세트의 속성에 의해 정의된 하위 그룹에서 발견된 모든 차이점을 평균화하여 단일 측정값을 제공합니다. 이는 각 하위 그룹에 대해 예측된 레이블(DDPLi)의 인구통계학적 차이의 가중 평균으로 정의되며, 각 하위 그룹 차이는 의 관찰 수에 비례하여 가중됩니다. 예측된 레이블에서의 조건부 인구통계학적 차이를 구하는 공식은 다음과 같습니다.
CDDPL = (1/n)*∑ini *DDPLi
위치:
-
∑ini = n은 총 관측치의 수에 해당하고 ni은 각 부분군에 대한 관측치 수입니다.
-
DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = P iR(y'0) - P iA(y'1)는 하위 그룹에 대한 예측 레이블의 인구통계학적 차이입니다.
따라서 예측 레이블(DDPLi)의 하위 그룹에 대한 인구통계학적 차이는 각 하위 그룹에 대해 예측된 거부 레이블의 비율과 예측된 수락 레이블의 비율 간의 차이입니다.
이진, 다중 범주 및 연속 결과의 DDPL 값 범위는 [-1,+1]입니다.
-
+1: 패싯 a 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 d 또는 부분군에는 예측된 합격자가 없는 경우.
-
양수 값은 패싯 d 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 높을수록 차이의 수준이 커집니다.
-
값이 0에 가까우면 평균적으로 인구통계학적 차이가 없음을 나타냅니다.
-
양수 값은 패싯 a 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 낮을수록 차이의 수준이 커집니다.
-
-1: 패싯 d 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 a 또는 부분군에는 예측된 합격자가 없는 경우.