콜모고로프-스미르노프(KS) - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

콜모고로프-스미르노프(KS)

콜모고로프-스미르노프(Kolmogorov-Smirnov, KS) 편향 지표는 데이터 세트의 패싯 a와 패싯 d에 대한 분포에서 레이블 간에 발생하는 최대 발산값과 같습니다. SageMaker Clarify에서 구현한 2샘플 KS 테스트는 가장 불균형한 레이블을 찾아 레이블 불균형의 다른 조치를 보완합니다.

콜모고로프-스미르노프 지표를 구하는 공식은 다음과 같습니다.

        KS = max(|Pa(y) - Pd(y)|)

예를 들어, 어떤 대학입시 지원자 그룹(패싯 a)에서 불합격, 대기명단, 합격 비율이 각각 40%, 40%, 20%이고, 다른 지원자 그룹(패싯 d)에서의 해당 비율은 20%, 10%, 70%라고 가정해 보겠습니다. 이 경우 콜모고로프-스미르노프 편향 지표는 다음과 같습니다.

KS = max(|0.4-0.2|, |0.4-0.1|, |0.2-0.7|) = 0.5

이는 패싯 분포 간의 최대 발산값이 0.5이고 이는 합격 비율에서 발생한다는 것을 의미합니다. 레이블이 카디널리티 3의 멀티클래스이기 때문에 해당 방정식에는 세 개의 항이 존재합니다.

바이너리, 멀티카테고리, 연속형 결과에 대한 LP 값의 범위는 [0, +1]입니다.이때,

  • 값이 0에 가까우면 모든 결과 범주에서 레이블이 패싯 간에 균등하게 분포되어 있음을 나타냅니다. 대출을 신청한 두 패싯 모두에서 승인 비율이 50%, 거부 비율이 50%로 나타난 경우를 예로 들 수 있습니다.

  • 값이 1에 가까우면 한 가지 결과에 대한 레이블이 하나의 패싯에 몰려 있다는 것을 나타냅니다. 패싯 a는 100%의 승인 결과를 얻었고 패싯 d는 승인 건수가 하나도 없는 경우를 예로 들 수 있습니다.

  • 간헐적인 값은 레이블 불균형 최대치의 상대적인 정도를 나타냅니다.