예측 레이블의 조건부 인구통계학적 차이(CDDPL) - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

예측 레이블의 조건부 인구통계학적 차이(CDDPL)

인구통계학적 차이 지표(DDPL)는 패싯 d가 예측된 수락 레이블보다 예측된 거부 레이블의 비율이 더 큰지 여부를 결정합니다. 이를 통해 여러 패싯에 걸쳐 예측된 거부 비율과 예측된 승인 비율의 차이를 비교할 수 있습니다. 이 지표는 관찰된 지표 대신 예측된 레이블에서 계산된다는 점을 제외하면 훈련 전 CDD 지표와 정확히 동일합니다. 이 지표의 범위는 (-1, +1)입니다.

패싯 d의 예측된 레이블에서의 인구통계학적 차이를 구하는 공식은 다음과 같습니다.

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = P dR(y'0) - P dA(y'1)

위치:

  • n'(0) = n'a(0) + n'd(0)은 패싯 a와 패싯 d에 대해 예측된 거부 레이블의 수입니다.

  • n'(1) = n'a(1) + n'd(1)은 패싯 a와 패싯 d에 대해 예측된 승인 레이블의 수입니다.

  • PdR(y'0)은 패싯 d에서 예측된 거부 레이블(값 0)의 비율입니다.

  • PdA(y'1)은 패싯 d에서 예측된 승인 레이블(값 1)의 비율입니다.

예측된 레이블(CDDPL) 지표의 조건부 인구통계학적 차이로, Simpson의 역설을 배제하려면 데이터 세트DDPL의 하위 그룹 계층을 정의하는 속성을 조건으로 합니다. 재군집화를 적용하며 덜 유리한 패싯에 대한 명백한 인구통계학적 차이의 원인을 파악하는 것이 가능해집니다. 한때 버클리대학교 입시에서 남성이 여성보다 전반적으로 더 높은 비율로 합격했던 것이 전형적인 사례입니다. 그러나 학과별 부분군을 조사하자, 학과별로 여성이 남성보다 입학률이 더 높은 것으로 나타났습니다. 여성이 남성보다 상대적으로 경쟁률이 낮은 학과에 지원했다는 것이 이에 대한 설명이었습니다. 부분군별로 경쟁률을 살펴본 결과 실제로 경쟁률이 낮은 학과에서 여성이 남성보다 더 높은 비율로 합격했던 것으로 나타났습니다.

CDDPL 지표는 데이터 세트의 속성에 의해 정의된 하위 그룹에서 발견된 모든 차이점을 평균화하여 단일 측정값을 제공합니다. 이는 각 하위 그룹에 대해 예측된 레이블(DDPLi)의 인구통계학적 차이의 가중 평균으로 정의되며, 각 하위 그룹 차이는 의 관찰 수에 비례하여 가중됩니다. 예측된 레이블에서의 조건부 인구통계학적 차이를 구하는 공식은 다음과 같습니다.

        CDDPL = (1/n)*ini *DDPLi

위치:

  • ini = n은 총 관측치의 수에 해당하고 ni은 각 부분군에 대한 관측치 수입니다.

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = P iR(y'0) - P iA(y'1)는 하위 그룹에 대한 예측 레이블의 인구통계학적 차이입니다.

따라서 예측 레이블(DDPLi)의 하위 그룹에 대한 인구통계학적 차이는 각 하위 그룹에 대해 예측된 거부 레이블의 비율과 예측된 수락 레이블의 비율 간의 차이입니다.

이진, 다중 범주 및 연속 결과의 DDPL 값 범위는 [-1,+1]입니다.

  • +1: 패싯 a 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 d 또는 부분군에는 예측된 합격자가 없는 경우.

  • 양수 값은 패싯 d 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 높을수록 차이의 수준이 커집니다.

  • 값이 0에 가까우면 평균적으로 인구통계학적 차이가 없음을 나타냅니다.

  • 양수 값은 패싯 a 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 낮을수록 차이의 수준이 커집니다.

  • -1: 패싯 d 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 a 또는 부분군에는 예측된 합격자가 없는 경우.