거부율 차이(DRR) - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

거부율 차이(DRR)

거부율 차이(DRR) 지표는 패싯 a와 패싯 d에서 관찰된 부정(TN+FN)에 대해 참 부정(TN) 예측이 가지는 비율의 차이입니다. 이 지표는 모델이 이 두 가지 패싯에서의 거부 건수를 예측해내는 정밀도의 차이를 측정합니다. 정밀도는 부적격 후보자로 이루어진 풀에서 해당 모델에 의해 부적격하다고 식별되는 후보자의 비율을 측정합니다. 부적격 신청자를 예측하기 위한 모델 정밀도가 여러 패싯 간에 차이가 나는 경우, 이는 편향으로 간주되며 DRR은 그 정도를 측정합니다.

패싯 a와 패싯 d 사이에서 나타나는 거부율 차이를 구하는 공식:

        DRR = TNd/(TNd + FNd) - TNa/(TNa + FNa)

앞선 DRR 방정식의 구성 요소는 다음과 같습니다.

  • TNd은 패싯 d에 대해 예측된 참 부정입니다.

  • FNd은 패싯 d에 대해 예측된 거짓 부정입니다.

  • TPa는 패싯 a에 대해 예측된 참 부정입니다.

  • FNa은 패싯 a에 대해 예측된 거짓 부정입니다.

예를 들어, 모델이 중년층 신청자 100명(패싯 a)의 대출 신청을 거부(예측된 부정적 레이블)했는데 그 중에서 80명만 실제로 부적격 판정(관찰된 부정적 레이블)되었다고 가정해 보겠습니다. 또한 모델이 다른 연령대의 신청자 50명(패싯 d)의 대출 신청을 거부(예측된 부정적 레이블)했는데 그 중에서 40명만 실제로 부적격 판정(관찰된 부정적 레이블)되었다고 가정해 보겠습니다. 이 경우 DRR = 40/50 - 80/100 = 0이므로 편향이 나타나지 않습니다.

바이너리, 멀티카테고리 패싯 및 연속형 레이블에 대한 DRR 값의 범위는 [-1, +1]입니다.

  • 양수 값은 패싯 d의 관찰된 부정적 결과(부적격 신청자)에 대한 예측된 부정(거부)의 비율이 패싯 a에서의 동일한 비율보다 클 때 발생합니다. 이러한 값은 패싯 a에서 상대적으로 더 많은 거짓 부정이 생성됨에 따라 유리한 패싯 a에 대한 편향이 존재할 수 있음을 나타냅니다. 해당 비율의 차이가 클수록 명백한 편향은 더욱 심해집니다.

  • 패싯 a와 패싯 d에 대해 예측된 부정적 결과(거부)와 관찰된 부정적 결과(부적격 신청자)의 상대적 비율이 비슷한 값을 가질 때 0에 가까운 값이 얻어집니다.이는 부정적 결과에 대한 관찰된 레이블이 해당 모델에 의해 동일한 정밀도로 예측되고 있음을 나타냅니다.

  • 음수 값은 패싯 a의 관찰된 부정적 결과(부적격 신청자)에 대한 예측된 부정(거부)의 비율이 패싯 d에서의 비율보다 클 때 발생합니다. 이러한 값은 패싯 d에서 상대적으로 더 많은 거짓 긍정이 생성됨에 따라 불리한 패싯 d에 대한 편향이 존재할 수 있음을 나타냅니다. 해당 비율에서의 차이가 부정적일수록 명백한 편향은 더욱 심해집니다.