Déséquilibre de classe (CI)

Le biais de déséquilibre de classe (CI) se produit lorsqu'une valeur de facette d a moins d'échantillons d'entraînement qu'une autre facette a dans le jeu de données. Cela vient du fait que les modèles retiennent plutôt les facettes volumineuses au détriment des plus petites, de sorte que l'erreur d'entraînement peut être plus élevée pour la facette d. En outre, comme les modèles risquent également de retenir trop de petits jeux de données, l'erreur de test peut être plus élevée pour la facette d. Prenons l'exemple d'un modèle de machine learning entraîné principalement sur des données provenant d'individus d'âge moyen (facette a), il pourrait être moins précis lors de prédictions impliquant des personnes plus jeunes et plus âgées (facette d).

La formule pour la mesure (normalisée) du déséquilibre entre facettes est la suivante :

CI = (n_a - n_d)/(n_a + n_d)

Où n_a est le nombre de membres de la facette a et n_d le nombre de membres de la facette d. Ses valeurs s'étendent sur l'intervalle [-1, 1].

Les valeurs CI positives indiquent que la facette a contient plus d'échantillons d'entraînement dans le jeu de données, tandis qu'une valeur de 1 indique que les données contiennent uniquement des membres de la facette a.
Les valeurs de CI proches de zéro indiquent une distribution plus égale des membres entre les facettes, tandis qu'une valeur de zéro indique une partition parfaitement égale entre les facettes et représente une distribution équilibrée des échantillons dans les données d'entraînement.
Les valeurs CI négatives indiquent que la facette dcontient plus d'échantillons d'entraînement dans le jeu de données, tandis qu'une valeur de -1 indique que les données contiennent uniquement des membres de la facette d.
Les valeurs CI proches des valeurs extrêmes -1 ou 1 sont très déséquilibrées et présentent un risque important de prédictions biaisées.

S'il existe un déséquilibre réel significatif entre les facettes, vous pouvez rééquilibrer l'échantillon avant de procéder à l'entraînement des modèles sur celui-ci.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Métriques de biais de pré-entraînement

Déséquilibre des étiquettes (DPL)