예측 레이블의 양수 비율 차이(DPPL) - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

예측 레이블의 양수 비율 차이(DPPL)

예측된 레이블(DPPL) 지표의 양수 비율 차이는 모델이 각 패싯에 대해 결과를 다르게 예측할지 여부를 결정합니다. 이는 패싯 a에 대한 긍정적인 예측의 비율(y' = 1)과 패싯 d에 대한 긍정적인 예측의 비율(y' = 1) 간의 차이로서 정의됩니다. 예를 들어, 만약 모델 예측이 중년층의 60%(패싯 a)와 다른 연령대의 50%(패싯 d)에게 대출을 제공하고 있다면, 이는 패싯 d에 대해 편향된 것일 수 있습니다. 이 예제에서는 이 10%의 차이가 편향 여부의 판단에 있어 중요한지 여부를 확인해야 합니다.

훈련 전 편향의 측정치인 레이블 비율의 차이(DPL)와 훈련 후 편향의 측정치인 DPPL를 비교하여 훈련 후 데이터 세트에 처음 존재하는 양의 비율의 편향이 변경되는지 여부를 평가합니다. DPPL 가 보다 크면 훈련 후 양수 비율의 DPL편향이 증가한 것입니다. DPPL 가 보다 작은 경우 DPL모델은 훈련 후 양의 비율로 편향을 증가시키지 않았습니다. DPL 를 비교DPPL한다고 해서 모델이 모든 차원에서 편향을 줄인다는 보장은 없습니다. 예를 들어 또는 반사실적 플립테스트(FT) 와 같은 다른 지표를 고려할 때 모델이 여전히 편향될 수 있습니다정확도 차이(AD). 편향 감지에 대한 자세한 내용은 블로그 게시물 Amazon SageMaker Clarify가 편향을 감지하는 데 어떻게 도움이 되는지 알아보기를 참조하세요. 에 대한 레이블 비율 차이(DPL) 자세한 내용은 섹션을 참조하세요DPL.

의 공식은 다음과 DPPL 같습니다.

        DPPL = q'a - q'd

위치:

  • q'a = n'a(1)/na은 값 1의 긍정적인 결과를 얻는 패싯 a의 예측된 비율입니다. 이 예제에서는 대출이 승인될 것으로 예측되는 중년층 패싯의 비율에 해당합니다. 여기서 n’a(1)은 패싯 a에서 값 1의 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 na은 패싯 a의 멤버 수를 나타냅니다.

  • q'd = n'd(1)/nd은 값 1의 긍정적인 결과를 얻는 패싯 d의 예측된 비율입니다. 이 예제에서는 대출을 받을 것으로 예측된 노년층과 청년층의 패싯에 해당합니다. 여기서 n’d(1)은 패싯 d에서 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 nd은 패싯 d의 멤버 수를 나타냅니다.

DPPL 가 0에 충분히 가까우면 훈련 후 인구통계학적 동등성이 달성되었음을 의미합니다.

바이너리 및 다중 범주 패싯 레이블의 경우 정규화된 DPL 값은 간격 [-1, 1]에 걸쳐 범위입니다. 연속형 레이블의 경우, 값은 해당 간격(-∞, +∞)에 따라서 달라집니다.

  • 양수 DPPL 값은 패싯 d 와 비교할 때 패싯 a가 예측된 양의 결과 비율이 더 높음을 나타냅니다.

    이를 긍정 편향이라고 합니다.

  • 값이 DPPL 거의 0이면 패싯 ad 간에 예측된 긍정적 결과의 비율이 더 같음을 나타내고 값이 0이면 완벽한 인구통계학적 패리티를 나타냅니다.

  • 음수 DPPL 값은 패싯 d가 패싯 a와 비교했을 때 예측된 긍정적 결과의 비율이 더 높음을 나타냅니다. 이를 부정 편향이라고 합니다.