기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
재현율 차이(RD)
재현율 차이(RD) 지표는 유리한 패싯 a와 불리한 패싯 d 사이에 존재하는 모델 재현율의 차이입니다. 이러한 재현율에서의 차이는 편향의 잠재적 형태입니다. 회상은 모델이 긍정적 결과를 받아야 하는 사례를 올바르게 예측하는 빈도를 측정하는 실제 긍정적 비율(TPR)입니다. 어떤 패싯에 대해 모든 y=1 사례가 y’=1로 정확하게 예측되었다면 해당 패싯에서의 재현율은 완벽합니다. 모델이 제2종 오류로 알려진 거짓 부정을 최소화한다면 재현율은 더욱 올라갑니다. 예를 들어, 서로 다른 두 그룹(패싯 a 및 d)에서의 대출 적격자 가운데 모델이 정확히 감지한 사람은 몇 명일까요? 만약 패싯 a에 대한 대출의 재현율이 높지만 패싯 d에 대한 대출의 재현율은 낮다면, 그 차이 값을 통해 패싯 d에 속하는 그룹에 대한 이러한 편향을 측정하는 것이 가능합니다.
패싯 a와 패싯 d에서의 재현율 차이를 구하는 공식:
RD = TP a/(TPa + FN a) - TP d/(TPd + FN d) = TPRa - TPRd
위치:
-
TPa는 패싯 a에 대해 예측된 참 긍정입니다.
-
FNa은 패싯 a에 대해 예측된 거짓 부정입니다.
-
TPd는 패싯 d에 대해 예측된 참 긍정입니다.
-
FNd은 패싯 d에 대해 예측된 거짓 부정입니다.
-
TPRa = TP a/(TPa + FN a)는 패싯 a 또는 해당 실제 양수율에 대한 호출입니다.
-
TPRd TP d/(TPd + FN d)는 패싯 d 또는 해당 실제 양수율에 대한 호출입니다.
예를 들어, 패싯 a 및 패싯 d에 대한 다음과 같은 혼동 행렬을 살펴봅시다.
유리한 패싯 a에 대한 혼동 행렬
클래스 a 예측 | 실제 결과 0 | 실제 결과 1 | 합계 |
---|---|---|---|
0 | 20 | 5 | 25 |
1 | 10 | 65 | 75 |
합계 | 30 | 70 | 100 |
불리한 패싯 d에 대한 혼동 행렬
클래스 d 예측 | 실제 결과 0 | 실제 결과 1 | 합계 |
---|---|---|---|
0 | 18 | 7 | 25 |
1 | 5 | 20 | 25 |
합계 | 23 | 27 | 50 |
재현율 차이의 값은 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19이며, 이는 패싯 d에 대한 편향을 나타냅니다.
바이너리 분류와 멀티카테고리 분류에 대한 패싯 a와 패싯 d 간의 재현율 차이 값의 범위는 [-1, +1]입니다. 연속형 레이블인 경우에는 이 지표를 사용할 수 없습니다.
-
양수 값은 패싯 a에서의 재현율이 패싯 d에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 a에 대한 참 긍정이 패싯 d에 대한 경우보다 많다는 것을 시사하며, 일종의 편향에 해당합니다.
-
값이 0에 가까우면 비교 대상인 여러 패싯의 재현율이 비슷하다는 것을 나타냅니다. 이는 모델이 이러한 패싯 모두에서 거의 같은 수의 참 긍정을 생성하고 있고 편향되지 않았음을 시사합니다.
-
음수 값은 패싯 d에서의 재현율이 패싯 a에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 d에 대한 참 긍정이 패싯 a에 대한 경우보다 많다는 것을 시사하며, 일종의 편향에 해당합니다.