类别不平衡 (CI) - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

类别不平衡 (CI)

当数据集中一个分面值 d 比另一个分面值 a 的训练样本少时,就会出现类别不平衡 (CI) 偏差。这是因为模型会优先拟合较大的分面,而忽略较小的分面,因此会导致分面 d 的训练误差增大。模型对较小数据集过度拟合的风险也较高,这会导致分面 d 的测试误差增大。举个例子,如果机器学习模型主要根据中年人(分面 a)的数据进行训练,那么在做出涉及年轻人和老年人(分面 d)的预测时,其准确性可能会降低。

(标准化)分面不平衡的衡量公式:

        CI = (na - nd)/(na + nd)

其中 na 是分面 a 的成员数,nd 是分面 d 的成员数。它的值范围在 [-1, 1] 区间内。

  • 正 CI 值表示分面 a 在数据集中有更多的训练样本,值为 1 表示数据仅包含分面 a 的成员。

  • 接近零的 CI 值表示各分面之间的成员分布更加均衡,值为零表示各分面之间完全等分,表明训练数据中样本分布均衡。

  • 负 CI 值表示分面 d 在数据集中有更多的训练样本,值为 -1 表示数据仅包含分面 d 的成员。

  • 如果 CI 值接近 -1 或 1 这两个极值,则表示非常不平衡,很有可能导致预测结果有偏差。

如果发现各分面之间存在明显的不平衡,则对样本进行模型训练之前,可能需要重新平衡样本。