재현율 차이(RD)

재현율 차이(RD) 지표는 유리한 패싯 a와 불리한 패싯 d 사이에 존재하는 모델 재현율의 차이입니다. 이러한 재현율에서의 차이는 편향의 잠재적 형태입니다. 회상은 모델이 긍정적 결과를 받아야 하는 사례를 올바르게 예측하는 빈도를 측정하는 실제 긍정적 비율(TPR)입니다. 어떤 패싯에 대해 모든 y=1 사례가 y’=1로 정확하게 예측되었다면 해당 패싯에서의 재현율은 완벽합니다. 모델이 제2종 오류로 알려진 거짓 부정을 최소화한다면 재현율은 더욱 올라갑니다. 예를 들어, 서로 다른 두 그룹(패싯 a 및 d)에서의 대출 적격자 가운데 모델이 정확히 감지한 사람은 몇 명일까요? 만약 패싯 a에 대한 대출의 재현율이 높지만 패싯 d에 대한 대출의 재현율은 낮다면, 그 차이 값을 통해 패싯 d에 속하는 그룹에 대한 이러한 편향을 측정하는 것이 가능합니다.

패싯 a와 패싯 d에서의 재현율 차이를 구하는 공식:

RD = TP _a/(TP_a + FN _a) - TP _d/(TP_d + FN _d) = TPR_a - TPR_d

위치:

TP_a는 패싯 a에 대해 예측된 참 긍정입니다.
FN_a은 패싯 a에 대해 예측된 거짓 부정입니다.
TP_d는 패싯 d에 대해 예측된 참 긍정입니다.
FN_d은 패싯 d에 대해 예측된 거짓 부정입니다.
TPR_a = TP _a/(TP_a + FN _a)는 패싯 a 또는 해당 실제 양수율에 대한 호출입니다.
TPR_d TP _d/(TP_d + FN _d)는 패싯 d 또는 해당 실제 양수율에 대한 호출입니다.

예를 들어, 패싯 a 및 패싯 d에 대한 다음과 같은 혼동 행렬을 살펴봅시다.

유리한 패싯 a에 대한 혼동 행렬

클래스 a 예측	실제 결과 0	실제 결과 1	합계
0	20	5	25
1	10	65	75
합계	30	70	100

불리한 패싯 d에 대한 혼동 행렬

클래스 d 예측	실제 결과 0	실제 결과 1	합계
0	18	7	25
1	5	20	25
합계	23	27	50

재현율 차이의 값은 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19이며, 이는 패싯 d에 대한 편향을 나타냅니다.

바이너리 분류와 멀티카테고리 분류에 대한 패싯 a와 패싯 d 간의 재현율 차이 값의 범위는 [-1, +1]입니다. 연속형 레이블인 경우에는 이 지표를 사용할 수 없습니다.

양수 값은 패싯 a에서의 재현율이 패싯 d에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 a에 대한 참 긍정이 패싯 d에 대한 경우보다 많다는 것을 시사하며, 일종의 편향에 해당합니다.
값이 0에 가까우면 비교 대상인 여러 패싯의 재현율이 비슷하다는 것을 나타냅니다. 이는 모델이 이러한 패싯 모두에서 거의 같은 수의 참 긍정을 생성하고 있고 편향되지 않았음을 시사합니다.
음수 값은 패싯 d에서의 재현율이 패싯 a에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 d에 대한 참 긍정이 패싯 a에 대한 경우보다 많다는 것을 시사하며, 일종의 편향에 해당합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

특이도 차이(SD)

허용률 차이(DAR)