Biais des données avant l'entraînement - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Biais des données avant l'entraînement

Le biais, la discrimination et l'équité algorithmiques, ainsi que des rubriques connexes ont été étudiés dans des disciplines telles que le droit, la stratégie et l'informatique. Un système informatique peut être considéré comme biaisé s'il est discriminatoire à l'égard de certains individus ou groupes d'individus. Les modèles de machine learning qui alimentent ces applications exploitent les données, et ces données peuvent refléter des disparités ou d'autres biais inhérents. Par exemple, les données d'entraînement peuvent ne pas disposer d'une représentation suffisante de divers groupes démographiques ou contenir des étiquettes biaisées. Les modèles de machine learning entraînés sur des jeux de données présentant ces biais peuvent finir par les apprendre, puis les reproduire voire les exacerber dans leurs prédictions. Le domaine du machine learning offre l'occasion d'aborder les biais en les détectant et en les mesurant à chaque étape du cycle de vie ML. Vous pouvez utiliser Amazon SageMaker Clarify pour déterminer si les données utilisées pour les modèles d'entraînement encodent un quelconque biais.

Le biais peut être mesuré avant et après l'entraînement, et son inférence peut être contrôlée par rapport à des lignes de base après le déploiement des modèles sur des points de terminaison. Les métriques de biais de pré-entraînement sont conçues pour détecter et mesurer les biais dans les données brutes avant leur utilisation pour entraîner un modèle. Les métriques utilisées sont indépendantes du modèle, car elles ne dépendent d'aucune sortie du modèle. Différents concepts d'équité exigent cependant des mesures de biais distinctes. Amazon SageMaker Clarify fournit des mesures de biais pour quantifier différents critères d'équité.

Pour plus d'informations sur les mesures de biais, consultez Découvrez comment Amazon SageMaker Clarify aide à détecter les mesures de biais et d'équité pour le Machine Learning dans le secteur de la finance.

Amazon SageMaker précise les termes relatifs à la partialité et à l'équité

SageMaker Clarify utilise la terminologie suivante pour parler de partialité et d'équité.

Fonctionnalité

Propriété ou caractéristique individuelle mesurable d'un phénomène observé, contenue dans une colonne pour les données tabulaires.

Étiquette

Fonction cible pour l'entraînement du modèle de machine learning. Appelée étiquette observée ou résultat observé.

Étiquette prédite

Étiquette telle que prédite par le modèle. Également appelée résultat prédit.

Exemple

Entité observée décrite par les valeurs de fonctions et la valeur d'étiquette, contenue dans une ligne pour les données tabulaires.

Jeux de données

Une série d'échantillons.

Écart

Déséquilibre dans les données d'entraînement ou le comportement de prédiction du modèle entre différents groupes, telles que l'âge ou la tranche de revenu. Les biais peuvent résulter des données ou de l'algorithme utilisé pour entraîner votre modèle. Par exemple, si un modèle ML est principalement entraîné sur des données provenant d'individus d'âge moyen, il sera peut-être moins précis lorsque des prédictions concerneront des personnes plus jeunes et plus âgées.

Métrique de biais

Fonction qui renvoie des valeurs numériques indiquant le niveau d'un biais potentiel.

Rapport de biais

Série de métriques de biais pour un jeu de données ou la combinaison d'un jeu de données et d'un modèle.

Valeurs d'étiquette positives

Valeurs d'étiquettes favorables à un groupe démographique observé dans un échantillon. En d'autres termes, désigne un échantillon comme ayant unrésultat positif.

Valeurs d'étiquette négatives

Valeurs d'étiquette défavorables à un groupe démographique observé dans un échantillon. En d'autres termes, désigne un échantillon comme ayant unrésultat négatif.

Variable de groupe

Colonne catégorique de l'ensemble de données utilisée pour former des sous-groupes afin de mesurer la disparité démographique conditionnelle (). CDD Requise uniquement pour cette métrique en lien avec le paradoxe de Simpson.

Facette

Colonne ou fonction contenant les attributs du biais mesuré.

Valeur de facette

Valeurs de fonction des attributs que le biais peut favoriser ou défavoriser.

Probabilité prédite

Probabilité, telle que prédite par le modèle, d'un échantillon ayant un résultat positif ou négatif.

Exemples de blocs-notes

Amazon SageMaker Clarify fournit le carnet d'échantillons suivant pour la détection des biais :

Il a été vérifié que ce bloc-notes fonctionne uniquement dans Amazon SageMaker Studio. Si vous avez besoin d'instructions pour ouvrir un bloc-notes dans Amazon SageMaker Studio, consultezCréation ou ouverture d'un bloc-notes Amazon SageMaker Studio Classic. Si vous êtes invité à choisir un noyau, choisissez Python 3 (Science des données).