Déséquilibre de classe (CI) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Déséquilibre de classe (CI)

Le biais de déséquilibre de classe (CI) se produit lorsqu'une valeur de facette d a moins d'échantillons d'entraînement qu'une autre facette a dans le jeu de données. Cela vient du fait que les modèles retiennent plutôt les facettes volumineuses au détriment des plus petites, de sorte que l'erreur d'entraînement peut être plus élevée pour la facette d. En outre, comme les modèles risquent également de retenir trop de petits jeux de données, l'erreur de test peut être plus élevée pour la facette d. Prenons l'exemple d'un modèle de machine learning entraîné principalement sur des données provenant d'individus d'âge moyen (facette a), il pourrait être moins précis lors de prédictions impliquant des personnes plus jeunes et plus âgées (facette d).

La formule pour la mesure (normalisée) du déséquilibre entre facettes est la suivante :

        CI = (na - nd)/(na + nd)

Où na est le nombre de membres de la facette a et nd le nombre de membres de la facette d. Ses valeurs s'étendent sur l'intervalle [-1, 1].

  • Les valeurs CI positives indiquent que la facette a contient plus d'échantillons d'entraînement dans le jeu de données, tandis qu'une valeur de 1 indique que les données contiennent uniquement des membres de la facette a.

  • Les valeurs de CI proches de zéro indiquent une distribution plus égale des membres entre les facettes, tandis qu'une valeur de zéro indique une partition parfaitement égale entre les facettes et représente une distribution équilibrée des échantillons dans les données d'entraînement.

  • Les valeurs CI négatives indiquent que la facette dcontient plus d'échantillons d'entraînement dans le jeu de données, tandis qu'une valeur de -1 indique que les données contiennent uniquement des membres de la facette d.

  • Les valeurs CI proches des valeurs extrêmes -1 ou 1 sont très déséquilibrées et présentent un risque important de prédictions biaisées.

S'il existe un déséquilibre réel significatif entre les facettes, vous pouvez rééquilibrer l'échantillon avant de procéder à l'entraînement des modèles sur celui-ci.