레이블 비율 차이(DPL)

레이블 비율의 차이(DPL)는 관찰된 결과의 비율을 패싯 d에 대한 양의 레이블과 훈련 데이터 세트의 패싯 a에 대한 양의 레이블이 있는 관찰된 결과의 비율을 비교합니다. 예를 들어, 이는 금융 대출을 승인받은 중년 개인(패싯 a)과 기타 연령 그룹(패싯 d)의 비율을 비교하는 데 사용될 수 있습니다. 기계 학습 모델은 훈련 데이터상 결정을 최대한 비슷하게 모방하려고 시도합니다. 따라서 높은 데이터 세트에 대해 훈련된 기계 학습 모델은 향후 예측에서 동일한 불균형을 반영할 DPL 가능성이 높습니다.

레이블 비율의 차이에 대한 공식은 다음과 같습니다.

DPL = (q_a - q _d)

위치:

q_a = n_a⁽¹⁾/n_a은 관찰된 레이블 값이 1인 패싯 a의 비율입니다. 대출 승인을 받은 중년 인구 집단의 비율을 예로 들 수 있습니다. 여기서 n_a⁽¹⁾은 패싯 a에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 n_a은 패싯 a의 멤버 수를 나타냅니다.
q_d = n_d⁽¹⁾/n_d은 관찰된 레이블 값이 1인 패싯 d의 비율입니다. 대출 승인을 받은 중년 인구 집단 이외의 사람들의 비율을 예로 들 수 있습니다. 여기서 n_d⁽¹⁾은 패싯 d에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 n_d은 패싯 d의 멤버 수를 나타냅니다.

DPL 가 0에 충분히 가까우면 인구통계학적 패리티가 달성되었다고 합니다.

바이너리 및 다중 범주 패싯 레이블의 경우 DPL 값은 간격(-1, 1)에 걸쳐 범위가 지정됩니다. 연속 레이블의 경우 레이블을 이진수로 축소하도록 임계값을 설정합니다.

양수 DPL 값은 패싯 a가 패싯 d 와 비교했을 때 긍정적인 결과의 비율이 더 높음을 나타냅니다.
값이 DPL 0에 가까우면 패싯 간에 긍정적인 결과의 비율이 더 같음을 나타내고 값이 0이면 완벽한 인구통계학적 패리티를 나타냅니다.
음수 DPL 값은 패싯 d가 패싯 a에 비해 긍정적인 결과의 비율이 더 높음을 나타냅니다.

의 규모DPL가 큰 가 문제가 되는지 여부는 상황에 따라 다릅니다. 문제가 있는 경우 고크기는 데이터의 기본 문제를 나타내는 신호일 DPL 수 있습니다. 예를 들어, 높은 데이터 세트DPL는 모델이 학습하기에 바람직하지 않은 연령 기반 인구 집단에 대한 과거 편향 또는 편견을 반영할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클래스 불균형(CI)

쿨백-라이블러 발산(KL)