기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
콜모고로프-스미르노프(Kolmogorov-Smirnov, KS) 편향 지표는 데이터세트의 패싯 a와 패싯 d에 대한 분포에서 레이블 간에 발생하는 최대 발산값과 같습니다. SageMaker Clarify에서 구현되는 2표본 KS 테스트는 가장 불균형한 레이블을 찾아냄으로써 레이블 불균형의 다른 측정값을 보완합니다.
콜모고로프-스미르노프 지표를 구하는 공식은 다음과 같습니다.
KS = max(|Pa(y) - Pd(y)|)
예를 들어, 어떤 대학입시 지원자 그룹(패싯 a)에서 불합격, 대기명단, 합격 비율이 각각 40%, 40%, 20%이고, 다른 지원자 그룹(패싯 d)에서의 해당 비율은 20%, 10%, 70%라고 가정해 보겠습니다. 이 경우 콜모고로프-스미르노프 편향 지표는 다음과 같습니다.
KS = max(|0.4-0.2|, |0.4-0.1|, |0.2-0.7|) = 0.5
이는 패싯 분포 간의 최대 발산값이 0.5이고 이는 합격 비율에서 발생한다는 것을 의미합니다. 레이블이 카디널리티 3의 멀티클래스이기 때문에 해당 방정식에는 세 개의 항이 존재합니다.
바이너리, 멀티카테고리, 연속형 결과에 대한 LP 값의 범위는 [0, +1]입니다.이때,
-
값이 0에 가까우면 모든 결과 범주에서 레이블이 패싯 간에 균등하게 분포되어 있음을 나타냅니다. 대출을 신청한 두 패싯 모두에서 승인 비율이 50%, 거부 비율이 50%로 나타난 경우를 예로 들 수 있습니다.
-
값이 1에 가까우면 한 가지 결과에 대한 레이블이 하나의 패싯에 몰려 있다는 것을 나타냅니다. 패싯 a는 100%의 승인 결과를 얻었고 패싯 d는 승인 건수가 하나도 없는 경우를 예로 들 수 있습니다.
-
간헐적인 값은 레이블 불균형 최대치의 상대적인 정도를 나타냅니다.