クラス不均衡 (CI) - Amazon SageMaker

クラス不均衡 (CI)

クラス不均衡 (CI) バイアスは、ファセット値 d のトレーニングサンプルがデータセット内の別のファセット a と比較して少ない場合に発生します。これは、モデルが小さいファセットを犠牲にして大きいファセットを優先的に適合させるため、ファセット d のトレーニング誤差が大きくなる可能性があるためです。また、モデルは小さいデータセットを過剰適合させるリスクも高いため、ファセット d のテスト誤差が大きくなる可能性があります。機械学習モデルが主に中高年者のデータに基づいてトレーニングされる例 (ファセット a) を考えてみましょう。若年者と高齢者を対象とした予測を行う場合 (ファセット b) は、精度が低くなる可能性があります。

(正規化された) ファセット不均衡測定の計算式は次のとおりです。

        CI = (na - nd)/(na + nd)

ここで、na はファセット a のメンバー数、nd はファセット d のメンバー数であり、その値は間隔 [-1、1] の範囲にあります。

  • 正の CI 値は、ファセット a で、データセットにより多くのトレーニングサンプルがあることを示し、1 の値は、データにファセット a のメンバーのみが含まれていることを示します。

  • ゼロに近い CI の値は、ファセット間のメンバーの分布がより均等であることを示し、ゼロの値は、ファセット間のパーティションが完全に等しいことを示し、トレーニングデータ内のサンプルのバランスのとれた分布を表します。

  • 負の CI 値は、ファセット d で、データセットにより多くのトレーニングサンプルがあることを示し、-1 の値は、データにファセット d のメンバーのみが含まれていることを示します。

  • -1 または 1 のいずれかの極値に近い CI 値は非常に不均衡であり、偏った予測を行うかなりのリスクがあります。

ファセット間に重大なファセットの不均衡が存在することが判明した場合、そのモデルのトレーニングに進む前にサンプルを再調整することをお勧めします。