재현율 차이(RD) - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

재현율 차이(RD)

재현율 차이(RD) 지표는 유리한 패싯 a와 불리한 패싯 d 사이에 존재하는 모델 재현율의 차이입니다. 이러한 재현율에서의 차이는 편향의 잠재적 형태입니다. 회상은 모델이 긍정적 결과를 받아야 하는 사례를 올바르게 예측하는 빈도를 측정하는 실제 긍정적 비율(TPR)입니다. 어떤 패싯에 대해 모든 y=1 사례가 y’=1로 정확하게 예측되었다면 해당 패싯에서의 재현율은 완벽합니다. 모델이 제2종 오류로 알려진 거짓 부정을 최소화한다면 재현율은 더욱 올라갑니다. 예를 들어, 서로 다른 두 그룹(패싯 ad)에서의 대출 적격자 가운데 모델이 정확히 감지한 사람은 몇 명일까요? 만약 패싯 a에 대한 대출의 재현율이 높지만 패싯 d에 대한 대출의 재현율은 낮다면, 그 차이 값을 통해 패싯 d에 속하는 그룹에 대한 이러한 편향을 측정하는 것이 가능합니다.

패싯 a와 패싯 d에서의 재현율 차이를 구하는 공식:

        RD = TP a/(TPa + FN a) - TP d/(TPd + FN d) = TPRa - TPRd

위치:

  • TPa는 패싯 a에 대해 예측된 참 긍정입니다.

  • FNa은 패싯 a에 대해 예측된 거짓 부정입니다.

  • TPd는 패싯 d에 대해 예측된 참 긍정입니다.

  • FNd은 패싯 d에 대해 예측된 거짓 부정입니다.

  • TPRa = TP a/(TPa + FN a)는 패싯 a 또는 해당 실제 양수율에 대한 호출입니다.

  • TPRd TP d/(TPd + FN d)는 패싯 d 또는 해당 실제 양수율에 대한 호출입니다.

예를 들어, 패싯 a 및 패싯 d에 대한 다음과 같은 혼동 행렬을 살펴봅시다.

유리한 패싯 a에 대한 혼동 행렬

클래스 a 예측 실제 결과 0 실제 결과 1 합계
0 20 5 25
1 10 65 75
합계 30 70 100

불리한 패싯 d에 대한 혼동 행렬

클래스 d 예측 실제 결과 0 실제 결과 1 합계
0 18 7 25
1 5 20 25
합계 23 27 50

재현율 차이의 값은 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19이며, 이는 패싯 d에 대한 편향을 나타냅니다.

바이너리 분류와 멀티카테고리 분류에 대한 패싯 a와 패싯 d 간의 재현율 차이 값의 범위는 [-1, +1]입니다. 연속형 레이블인 경우에는 이 지표를 사용할 수 없습니다.

  • 양수 값은 패싯 a에서의 재현율이 패싯 d에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 a에 대한 참 긍정이 패싯 d에 대한 경우보다 많다는 것을 시사하며, 일종의 편향에 해당합니다.

  • 값이 0에 가까우면 비교 대상인 여러 패싯의 재현율이 비슷하다는 것을 나타냅니다. 이는 모델이 이러한 패싯 모두에서 거의 같은 수의 참 긍정을 생성하고 있고 편향되지 않았음을 시사합니다.

  • 음수 값은 패싯 d에서의 재현율이 패싯 a에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 d에 대한 참 긍정이 패싯 a에 대한 경우보다 많다는 것을 시사하며, 일종의 편향에 해당합니다.