Biais des données avant l'entraînement

Mode de mise au point

Biais des données avant l'entraînement - Amazon SageMaker AI

Amazon SageMaker précise les termes relatifs à la partialité et à l'équité Exemples de blocs-notes

Le biais, la discrimination et l'équité algorithmiques, ainsi que des rubriques connexes ont été étudiés dans des disciplines telles que le droit, la stratégie et l'informatique. Un système informatique peut être considéré comme biaisé s'il est discriminatoire à l'égard de certains individus ou groupes d'individus. Les modèles de machine learning qui alimentent ces applications exploitent les données, et ces données peuvent refléter des disparités ou d'autres biais inhérents. Par exemple, les données d'entraînement peuvent ne pas disposer d'une représentation suffisante de divers groupes démographiques ou contenir des étiquettes biaisées. Les modèles de machine learning entraînés sur des jeux de données présentant ces biais peuvent finir par les apprendre, puis les reproduire voire les exacerber dans leurs prédictions. Le domaine du machine learning offre l'occasion d'aborder les biais en les détectant et en les mesurant à chaque étape du cycle de vie ML. Vous pouvez utiliser Amazon SageMaker Clarify pour déterminer si les données utilisées pour les modèles d'entraînement encodent un quelconque biais

Le biais peut être mesuré avant et après l'entraînement, et son inférence peut être contrôlée par rapport à des lignes de base après le déploiement des modèles sur des points de terminaison. Les métriques de biais de pré-entraînement sont conçues pour détecter et mesurer les biais dans les données brutes avant leur utilisation pour entraîner un modèle. Les métriques utilisées sont indépendantes du modèle, car elles ne dépendent d'aucune sortie du modèle. Différents concepts d'équité exigent cependant des mesures de biais distinctes. Amazon SageMaker Clarify fournit des mesures de biais pour quantifier différents critères d'équité.

Pour plus d'informations sur les mesures de biais, consultez Découvrez comment Amazon SageMaker Clarify aide à détecter les mesures de biais et d'équité pour le Machine Learning dans le secteur de la finance.

Amazon SageMaker précise les termes relatifs à la partialité et à l'équité

SageMaker Clarify utilise la terminologie suivante pour parler de partialité et d'équité.

Fonctionnalité: Propriété ou caractéristique individuelle mesurable d'un phénomène observé, contenue dans une colonne pour les données tabulaires.
Étiquette: Fonction cible pour l'entraînement du modèle de machine learning. Appelée étiquette observée ou résultat observé.
Étiquette prédite: Étiquette telle que prédite par le modèle. Également appelée résultat prédit.
Exemple: Entité observée décrite par les valeurs de fonctions et la valeur d'étiquette, contenue dans une ligne pour les données tabulaires.
Jeux de données: Une série d'échantillons.
Écart: Déséquilibre dans les données d'entraînement ou le comportement de prédiction du modèle entre différents groupes, telles que l'âge ou la tranche de revenu. Les biais peuvent résulter des données ou de l'algorithme utilisé pour entraîner votre modèle. Par exemple, si un modèle ML est principalement entraîné sur des données provenant d'individus d'âge moyen, il sera peut-être moins précis lorsque des prédictions concerneront des personnes plus jeunes et plus âgées.
Métrique de biais: Fonction qui renvoie des valeurs numériques indiquant le niveau d'un biais potentiel.
Rapport de biais: Série de métriques de biais pour un jeu de données ou la combinaison d'un jeu de données et d'un modèle.
Valeurs d'étiquette positives: Valeurs d'étiquettes favorables à un groupe démographique observé dans un échantillon. En d'autres termes, désigne un échantillon comme ayant unrésultat positif.
Valeurs d'étiquette négatives: Valeurs d'étiquette défavorables à un groupe démographique observé dans un échantillon. En d'autres termes, désigne un échantillon comme ayant unrésultat négatif.
Variable de groupe: Colonne de catégorie du jeu de données utilisée pour former des sous-groupes pour la mesure de la disparité démographique conditionnelle (CDD). Requise uniquement pour cette métrique en lien avec le paradoxe de Simpson.
Facette: Colonne ou fonction contenant les attributs du biais mesuré.
Valeur de facette: Valeurs de fonction des attributs que le biais peut favoriser ou défavoriser.
Probabilité prédite: Probabilité, telle que prédite par le modèle, d'un échantillon ayant un résultat positif ou négatif.

Exemples de blocs-notes

Amazon SageMaker Clarify fournit le carnet d'échantillons suivant pour la détection des biais :

Explicabilité et détection des biais avec Amazon SageMaker Clarify : utilisez SageMaker Clarify pour créer une tâche de traitement permettant de détecter les biais et d'expliquer les prédictions du modèle avec les attributions de fonctionnalités.

Il a été vérifié que ce bloc-notes fonctionne uniquement dans Amazon SageMaker Studio. Si vous avez besoin d'instructions pour ouvrir un bloc-notes dans Amazon SageMaker Studio, consultezCréation ou ouverture d'un bloc-notes Amazon SageMaker Studio Classic. Si vous êtes invité à choisir un noyau, choisissez Python 3 (Science des données).

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résoudre les problèmes relatifs aux tâches

Métriques de biais de pré-entraînement

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Biais des données avant l'entraînement

Amazon SageMaker précise les termes relatifs à la partialité et à l'équité

Exemples de blocs-notes

Rubriques

Sur cette page

Related resources

Cette page vous a-t-elle été utile ?

Related resources

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?