기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
조건부 거부의 차이(DCR)
이 지표는 관찰된 레이블을 모델이 수행한 예측의 레이블과 비교하면서 부정적인 결과(거부)에 있어 이 값이 여러 패싯에 걸쳐 동일한지 여부를 평가합니다. 이 지표는 특정 패싯에 대해 모델이 제공한 부정적 결과(예측된 레이블 y')가 훈련 데이터 세트에서 레이블에 의해 제안된 것(관찰된 레이블 y)과 비교하여 얼마나 더 많은지 정량화한다는 면에서 인간의 편견을 어느 정도 모방한다고 할 수 있습니다. 예를 들어, 중년층의 대출 신청(패싯 a)에서 다른 연령대를 포함하는 패싯(패싯 d)과 비교 시 자격 취득에 기반한 모델의 예측치보다 더 많은 거부 건수(부정적 결과)가 관찰되고 있는 경우, 이는 대출 거부 방식에 있어 다른 그룹에 비해 중년층에 유리한 편향의 존재를 시사할 수 있습니다.
조건부 승인의 차이를 구하는 공식:
DCR = rd - ra
위치:
-
rd = nd(0)/ n'd(0)은 패싯 d의 값 0(거부)에서 관찰된 부정적인 결과(거부)의 수와 패싯 d에 대해 예측된 부정적인 결과(거부)의 수가 가지는 비율입니다.
-
ra = na(0)/ n'a(0)은 패싯 a의 값 0(거부)에서 관찰된 부정적인 결과(거부)의 수와 패싯 a의 값 0에 대해 예측된 부정적인 결과(거부)의 수가 가지는 비율입니다.
이 DCR 지표는 검증을 기반으로 한 특혜 대우를 나타내는 긍정적 편향과 부정적 편향을 모두 캡처할 수 있습니다. 대출 거부에 있어 연령에 따른 편향이 나타나는 다음과 같은 사례를 살펴보겠습니다.
예제 1: 긍정 편향
대출을 신청한 중년 인구 100명(패싯 a)과 50명의 다른 연령대(패싯 d)로 구성된 데이터 세트가 있다고 가정해 보겠습니다.이 모델이 패싯 a에서 60명, 패싯 d에서는 30명에게 대출을 거부하도록 추천했다고 가정합니다. 따라서 예측된 비율은 DPPL 지표에 의해 편향되지 않지만 관찰된 레이블은 패싯 a에서 50개, 패싯 d에서 40개가 거부되었음을 보여줍니다. 다시 말해, 이 모델은 중년층 패싯에서는 훈련 데이터에서 관찰된 레이블이 제안한 것보다 17% 많은 대출을 거부했고(50/60 = 0.83), 다른 연령대에서는 관찰된 레이블이 제안한 것보다 33% 적은 대출을 거부했습니다(40/30 = 1.33). 이 DCR 값은 패싯 간 관찰된 거부율과 예측된 거부율의 비율에서 이러한 차이를 정량화합니다. 양수 값은 다른 그룹과 비교 시 관찰된 데이터(편향되지 않은 것으로 간주)가 가리키는 정도보다도 거부율이 낮게 나온 중년 그룹에 유리한 잠재적 편향이 존재함을 나타냅니다.
DCR = 40/30 - 50/60 = 1/2
예제 2: 부정 편향
대출을 신청한 중년 인구 100명(패싯 a)과 50명의 다른 연령대(패싯 d)로 구성된 데이터 세트가 있다고 가정해 보겠습니다.이 모델이 패싯 a에서 60명, 패싯 d에서는 30명에게 대출을 거부하도록 추천했다고 가정합니다. 따라서 예측된 비율은 DPPL 지표에 의해 편향되지 않지만 관찰된 레이블은 패싯 a에서 70개, 패싯 d에서 20개가 거부되었음을 보여줍니다. 다시 말해, 이 모델은 중년층 패싯에서는 훈련 데이터에서 관찰된 레이블이 제안한 것보다 17% 적은 대출을 거부했고(70/60 = 1.17), 다른 연령대에서는 관찰된 레이블이 제안한 것보다 33% 많은 대출을 거부했습니다(20/30 = 0.67). 음수 값은 중년층 패싯 a와 비교 시 관찰된 데이터(편향되지 않은 것으로 간주)가 가리키는 정도보다도 거부율이 낮게 나온 패싯 a에 유리한 잠재적 편향이 존재함을 나타냅니다.
DCR = 20/30 - 70/60 = -1/2
바이너리, 멀티카테고리 패싯 및 연속형 레이블에 대한 조건부 거부 건수 차이의 값 범위는 (-∞, +∞)입니다.
-
양수 값은 패싯 d에 대해 예측된 거부 건수와 관찰된 거부 건수의 비율이 패싯 a에서의 해당 비율보다 클 때 얻어집니다. 이러한 값은 패싯 a에서 적격 신청자를 대상으로 한 편향이 존재할 수 있음을 나타냅니다. 지표 값이 DCR 클수록 겉보기 편향이 더 극단적입니다.
-
0에 가까운 값은 패싯 a에 대해 예측된 승인 건수와 관찰된 거부 건수의 비율이 패싯 d에서의 비율과 비슷할 때 얻어집니다. 이 값은 예측된 거부율이 레이블이 지정된 데이터에서 관찰된 값과 일치하며 두 패싯 모두에서 적격 신청자의 대출이 유사한 방식으로 거부되고 있음을 나타냅니다.
-
음수 값은 패싯 d에 대해 예측된 거부 건수와 관찰된 거부 건수의 비율이 패싯 a에서의 해당 비율보다 작을 때 얻어집니다. 이러한 값은 패싯 d에서 적격 신청자를 대상으로 한 편향이 존재할 수 있음을 나타냅니다. 마이너스 DCR 지표의 크기가 클수록 겉보기 편향이 더 극단적입니다.