클래스 불균형(CI) - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

클래스 불균형(CI)

클래스 불균형(CI) 편향은 데이터세트의 다른 패싯 a에 비해 패싯값 d에 훈련 샘플의 수가 상대적으로 적을 때 발생합니다. 이는 모델이 작은 패싯을 희생하면서 큰 패싯을 우선적으로 적합시킴에 따라 패싯 d의 훈련 오차가 더 커질 수 있기 때문입니다. 또한 모델은 크기가 작은 데이터세트를 과적합시킬 위험이 높으며, 이로 인해 패싯 d의 테스트 오차가 더 커질 수도 있습니다. 기계 학습 모델을 주로 중년 개인의 데이터(패싯 a)를 기반으로 훈련시키는 경우를 가정해보면, 청년층과 노년층을 대상으로 예측했을 때(패싯 d)는 정확도가 떨어질 수 있습니다.

(정규화된) 패싯 불균형 측정의 공식:

        CI = (na - nd)/(na + nd)

여기서 na은 패싯 a의 멤버 수이고 nd은 패싯 d의 멤버 수입니다. 값의 범위는 [-1, 1] 간격입니다.

  • 양수 CI 값은 패싯 a의 데이터세트에 훈련 샘플이 더 많음을 나타내고, 값이 1이면 해당 데이터에 패싯 a의 멤버만이 포함되어 있음을 나타냅니다.

  • CI 값이 0에 가까울수록 패싯 간의 멤버 분포가 비교적 균등하다는 것을 나타내고, 값이 0이면 패싯 간의 분할이 완전히 같다는 것과 해당 훈련 데이터에 있는 샘플의 분포가 균형 잡혀 있다는 것을 나타냅니다.

  • 음수 CI 값은 패싯 d의 데이터세트에 훈련 샘플이 더 많음을 나타내고, 값이 -1이면 해당 데이터에 패싯 d의 멤버만이 포함되어 있음을 나타냅니다.

  • 양쪽 극한 값인 -1 또는 1에 가까운 CI 값은 매우 불균형하며 편향된 예측을 수행할 위험성이 상당히 높습니다.

여러 패싯 사이에 심각한 패싯 불균형이 있는 것으로 확인되면, 모델을 학습시키기 전에 해당 샘플을 재조정하는 것이 좋습니다.