예측 레이블의 양수 비율 차이(DPPL)

예측 레이블(DPPL) 지표의 양수 비율 차이는 모델이 각 패싯에 대해 결과를 다르게 예측하는지 여부를 결정합니다. 이는 패싯 a에 대한 긍정적인 예측의 비율(y' = 1)과 패싯 d에 대한 긍정적인 예측의 비율(y' = 1) 간의 차이로서 정의됩니다. 예를 들어, 만약 모델 예측이 중년층의 60%(패싯 a)와 다른 연령대의 50%(패싯 d)에게 대출을 제공하고 있다면, 이는 패싯 d에 대해 편향된 것일 수 있습니다. 이 예제에서는 이 10%의 차이가 편향 여부의 판단에 있어 중요한지 여부를 확인해야 합니다.

훈련 전 편향의 측정치인 레이블 비율의 차이(DPL)와 훈련 후 편향의 DPPL측정치인를 비교하여 훈련 후 데이터 세트에 처음 존재하는 양의 비율의 편향이 변경되는지 여부를 평가합니다. DPPL가 보다 크면 훈련 후 양수 비율의 DPL편향이 증가합니다. DPPL가 보다 작DPL을 경우 모델은 훈련 후 양의 비율로 편향을 증가시키지 않았습니다. DPL를 비교DPPL한다고 해서 모델이 모든 차원에 따라 편향을 줄일 수 있는 것은 아닙니다. 예를 들어 반사실적 플립테스트(FT) 또는 정확도 차이(AD)와 같은 다른 지표를 고려할 때 모델이 여전히 편향될 수 있습니다. 편향 감지에 대한 자세한 내용은 블로그 게시물 Amazon SageMaker Clarify가 편향을 감지하는 데 어떻게 도움이 되는지 알아보기를 참조하세요. 에 대한 레이블 비율 차이(DPL) 자세한 내용은 섹션을 참조하세요DPL.

의 공식은 다음과 DPPL 같습니다.

DPPL = q'_a - q'_d

위치:

q'_a = n'_a⁽¹⁾/n_a은 값 1의 긍정적인 결과를 얻는 패싯 a의 예측된 비율입니다. 이 예제에서는 대출이 승인될 것으로 예측되는 중년층 패싯의 비율에 해당합니다. 여기서 n’_a⁽¹⁾은 패싯 a에서 값 1의 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 n_a은 패싯 a의 멤버 수를 나타냅니다.
q'_d = n'_d⁽¹⁾/n_d은 값 1의 긍정적인 결과를 얻는 패싯 d의 예측된 비율입니다. 이 예제에서는 대출을 받을 것으로 예측된 노년층과 청년층의 패싯에 해당합니다. 여기서 n’_d⁽¹⁾은 패싯 d에서 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 n_d은 패싯 d의 멤버 수를 나타냅니다.

DPPL가 0에 충분히 가까우면 훈련 후 인구통계학적 동등성이 달성되었음을 의미합니다.

이진 및 다중 범주 패싯 레이블의 경우 정규화된 DPL 값은 간격 [-1, 1]에 걸쳐 범위가 지정됩니다. 연속형 레이블의 경우, 값은 해당 간격(-∞, +∞)에 따라서 달라집니다.

양수 DPPL 값은 패싯 d와 비교할 때 패싯 a가 예측된 긍정적 결과의 비율이 더 높음을 나타냅니다.

이를 긍정 편향이라고 합니다.
값이 DPPL 0에 가까우면 패싯 a와 d 간에 예측된 긍정적 결과의 비율이 더 같음을 나타내고 값이 0이면 완벽한 인구통계학적 동등성을 나타냅니다.
음수 DPPL 값은 패싯 a와 비교할 때 패싯 d가 예측된 긍정적 결과의 비율이 더 높음을 나타냅니다. 이를 부정 편향이라고 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

훈련 후 데이터 및 모델 편향 지표

불평등 효과(DI)