기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
예측 레이블의 양수 비율 차이(DPPL)
예측 레이블(DPPL) 지표의 양수 비율 차이는 모델이 각 패싯에 대해 결과를 다르게 예측하는지 여부를 결정합니다. 이는 패싯 a에 대한 긍정적인 예측의 비율(y' = 1)과 패싯 d에 대한 긍정적인 예측의 비율(y' = 1) 간의 차이로서 정의됩니다. 예를 들어, 만약 모델 예측이 중년층의 60%(패싯 a)와 다른 연령대의 50%(패싯 d)에게 대출을 제공하고 있다면, 이는 패싯 d에 대해 편향된 것일 수 있습니다. 이 예제에서는 이 10%의 차이가 편향 여부의 판단에 있어 중요한지 여부를 확인해야 합니다.
훈련 전 편향의 측정치인 레이블 비율의 차이(DPL)와 훈련 후 편향의 DPPL측정치인를 비교하여 훈련 후 데이터 세트에 처음 존재하는 양의 비율의 편향이 변경되는지 여부를 평가합니다. DPPL가 보다 크면 훈련 후 양수 비율의 DPL편향이 증가합니다. DPPL가 보다 작DPL을 경우 모델은 훈련 후 양의 비율로 편향을 증가시키지 않았습니다. DPL를 비교DPPL한다고 해서 모델이 모든 차원에 따라 편향을 줄일 수 있는 것은 아닙니다. 예를 들어 반사실적 플립테스트(FT) 또는 정확도 차이(AD)와 같은 다른 지표를 고려할 때 모델이 여전히 편향될 수 있습니다. 편향 감지에 대한 자세한 내용은 블로그 게시물 Amazon SageMaker Clarify가 편향을 감지하는 데 어떻게 도움이 되는지 알아보기
의 공식은 다음과 DPPL 같습니다.
DPPL = q'a - q'd
위치:
-
q'a = n'a(1)/na은 값 1의 긍정적인 결과를 얻는 패싯 a의 예측된 비율입니다. 이 예제에서는 대출이 승인될 것으로 예측되는 중년층 패싯의 비율에 해당합니다. 여기서 n’a(1)은 패싯 a에서 값 1의 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 na은 패싯 a의 멤버 수를 나타냅니다.
-
q'd = n'd(1)/nd은 값 1의 긍정적인 결과를 얻는 패싯 d의 예측된 비율입니다. 이 예제에서는 대출을 받을 것으로 예측된 노년층과 청년층의 패싯에 해당합니다. 여기서 n’d(1)은 패싯 d에서 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 nd은 패싯 d의 멤버 수를 나타냅니다.
DPPL가 0에 충분히 가까우면 훈련 후 인구통계학적 동등성이 달성되었음을 의미합니다.
이진 및 다중 범주 패싯 레이블의 경우 정규화된 DPL 값은 간격 [-1, 1]에 걸쳐 범위가 지정됩니다. 연속형 레이블의 경우, 값은 해당 간격(-∞, +∞)에 따라서 달라집니다.
-
양수 DPPL 값은 패싯 d와 비교할 때 패싯 a가 예측된 긍정적 결과의 비율이 더 높음을 나타냅니다.
이를 긍정 편향이라고 합니다.
-
값이 DPPL 0에 가까우면 패싯 a와 d 간에 예측된 긍정적 결과의 비율이 더 같음을 나타내고 값이 0이면 완벽한 인구통계학적 동등성을 나타냅니다.
-
음수 DPPL 값은 패싯 a와 비교할 때 패싯 d가 예측된 긍정적 결과의 비율이 더 높음을 나타냅니다. 이를 부정 편향이라고 합니다.