本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
類別不平衡 (CI)
與資料集中的另一個構面 a 相比,當構面值 d 具有較少的訓練範例時,就會發生類別不平衡 (CI) 偏差。這是因為模型會優先配合較大的構面,但會犧牲較小的構面,因此可能會導致構面 d 較高的訓練誤差。模型也有較高風險過度擬合較小的資料集,這可能會導致構面 d 較大的測試誤差。考慮機器學習模型主要根據中年人 (構面 a) 的資料進行訓練的範例,在進行涉及年輕人和老年人的預測時 (構面 d) 可能不太準確。
(標準化) 構面不平衡衡量的公式:
CI = (na - nd)/(na + nd)
其中 an 是構面 a 的項目數量和 nd 的構面 d 的數量。其值範圍在間隔 [-1, 1] 內。
-
正 CI 值表示構面 a 在資料集中有更多訓練範例,值 1 表示資料只包含構面 a 的項目。
-
CI 接近零的值表示多構面之間的項目的分布,且零值表示構面之間的完全相等的分區,並表示訓練資料樣本中的平衡分布。
-
負 CI 值表示構面 d 在資料集中具有更多訓練範例,值為 -1 表示資料僅包含構面 d 的項目。
-
接近任一極端值 -1 或 1 的 CI 值非常不平衡,並且存在做出偏差預測的重大風險。
如果發現多構面之間存在明顯的多構面不平衡,您可能想要重新平衡樣本,然後再繼續在其上訓練模型。