기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
클래스 불균형(CI)
클래스 불균형(CI) 편향은 데이터세트의 다른 패싯 a에 비해 패싯값 d에 훈련 샘플의 수가 상대적으로 적을 때 발생합니다. 이는 모델이 작은 패싯을 희생하면서 큰 패싯을 우선적으로 적합시킴에 따라 패싯 d의 훈련 오차가 더 커질 수 있기 때문입니다. 또한 모델은 크기가 작은 데이터세트를 과적합시킬 위험이 높으며, 이로 인해 패싯 d의 테스트 오차가 더 커질 수도 있습니다. 기계 학습 모델을 주로 중년 개인의 데이터(패싯 a)를 기반으로 훈련시키는 경우를 가정해보면, 청년층과 노년층을 대상으로 예측했을 때(패싯 d)는 정확도가 떨어질 수 있습니다.
(정규화된) 패싯 불균형 측정의 공식:
CI = (na - nd)/(na + nd)
여기서 na은 패싯 a의 멤버 수이고 nd은 패싯 d의 멤버 수입니다. 값의 범위는 [-1, 1] 간격입니다.
-
양수 CI 값은 패싯 a의 데이터세트에 훈련 샘플이 더 많음을 나타내고, 값이 1이면 해당 데이터에 패싯 a의 멤버만이 포함되어 있음을 나타냅니다.
-
CI 값이 0에 가까울수록 패싯 간의 멤버 분포가 비교적 균등하다는 것을 나타내고, 값이 0이면 패싯 간의 분할이 완전히 같다는 것과 해당 훈련 데이터에 있는 샘플의 분포가 균형 잡혀 있다는 것을 나타냅니다.
-
음수 CI 값은 패싯 d의 데이터세트에 훈련 샘플이 더 많음을 나타내고, 값이 -1이면 해당 데이터에 패싯 d의 멤버만이 포함되어 있음을 나타냅니다.
-
양쪽 극한 값인 -1 또는 1에 가까운 CI 값은 매우 불균형하며 편향된 예측을 수행할 위험성이 상당히 높습니다.
여러 패싯 사이에 심각한 패싯 불균형이 있는 것으로 확인되면, 모델을 학습시키기 전에 해당 샘플을 재조정하는 것이 좋습니다.