Disparité démographique conditionnelle () CDD - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Disparité démographique conditionnelle () CDD

La métrique de disparité démographique (DD) détermine si une proportion des résultats rejetés dans le jeu de données est supérieure à celle des résultats acceptés pour une facette. Dans le cas de figure binaire où il y a deux facettes, hommes et femmes par exemple, qui constituent le jeu de données, la facette défavorisée est étiquetée facette d et la facette favorisée est étiquetée facette a. Par exemple, dans le cas des admissions à l'université, si les candidats de sexe féminin représentaient 46 % des rejets et seulement 32 % des acceptations, nous pouvons parler de disparité démographique car le taux de rejet des candidats de sexe féminin dépasse leur taux d'acceptation. Les femmes candidates sont étiquetées facette d dans ce cas. Si les hommes représentent 54 % des candidats rejetés et 68 % des candidats acceptés, alors il n'y a pas de disparité démographique pour cette facette puisque le taux de rejet est inférieur au taux d'acceptation. Dans ce cas, les candidats masculins sont étiquetés facette a.

La formule pour la disparité démographique de la facette la moins favorisée d est la suivante :

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1)

Où :

  • n(0) = na(0) + nd(0) représente le nombre total de résultats rejetés dans le jeu de données pour la facette favorisée a et une facette défavorisée d.

  • n(1) = na(1) + nd(1) représente le nombre total de résultats acceptés dans le jeu de données pour la facette favorisée a et la facette défavorisée d.

  • PdR(y0) est la proportion des résultats rejetés (avec la valeur 0) dans la facette d.

  • PdA(y1) est la proportion des résultats acceptés (valeur 1) dans la facette d.

Pour l'exemple de l'admission à l'université, la disparité démographique pour les femmes est DDd = 0,46 - 0,32 = 0,14. Pour les hommes : DDa = 0,54 - 0,68 = 0,14.

Une métrique de disparité démographique conditionnelle (CDD) qui conditionne DD aux attributs qui définissent une strate de sous-groupes dans le jeu de données est nécessaire pour exclure le paradoxe de Simpson. Le regroupement peut donner des informations sur la cause des disparités démographiques apparentes pour les facettes moins favorisées. Le cas classique s'est produit lors des admissions à Berkeley où les hommes étaient globalement acceptés à un taux plus élevé que les femmes. Les statistiques de ce cas ont été utilisées dans l'exemple de calcul de la DD. Cependant, à l'examen des sous-groupes départementaux, les taux d'admission des femmes étaient supérieurs à ceux des hommes lorsque qu'ils sont conditionnés par le département. Cela venait du fait que les femmes avaient déposé une demande dans des départements où les taux d'acceptation étaient inférieurs à ceux des hommes. L'examen des taux d'acceptation des sous-groupes a révélé que les femmes étaient effectivement acceptées à un taux plus élevé que les hommes dans les départements où les taux d'acceptation étaient inférieurs.

La CDD métrique fournit une mesure unique pour toutes les disparités constatées dans les sous-groupes définis par un attribut d'un ensemble de données en faisant la moyenne de ces disparités. Elle est définie comme la moyenne pondérée des disparités démographiques (DDi) pour chacun des sous-groupes, la disparité de chaque sous-groupe étant pondérée proportionnellement au nombre d'observations qu'il contient. La formule pour la disparité démographique conditionnelle est la suivante :

        CDD= (1/n)*, i en i * DD i

Où :

  • ini = n est le nombre total d'observations et ni est le nombre d'observations pour chaque sous-groupe.

  • DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) est la disparité démographique pour le énième sous-groupe.

La disparité démographique pour un sous-groupe (DDi) correspond à la différence entre la proportion de résultats rejetées et la proportion de résultats acceptés pour chaque sous-groupe.

La plage des valeurs DD pour les résultats binaires du jeu de données complet DDd ou pour ses sous-groupes conditionnés DDi est [-1, +1].

  • +1 : lorsqu'il n'y a aucun rejet dans la facette a ou le sous-groupe, et aucune acceptation dans la facette d ou le sous-groupe

  • Les valeurs positives indiquent une disparité démographique dans la mesure où la proportion des résultats rejetés dans le jeu de données pour la facette d ou le sous-groupe est supérieure à celle des résultats acceptés. Plus la valeur est élevée, moins la facette est favorisée et plus la disparité est grande.

  • Les valeurs négatives indiquent qu'il n'y a pas de disparité démographique car la facette d ou le sous-groupe présente une plus grande proportion des résultats acceptés dans le jeu de données que de résultats rejetés. Plus la valeur est faible, plus la facette est favorisée.

  • -1 : lorsqu'il n'y a aucun rejet dans la facette d ou le sous-groupe, et aucune acceptation dans la facette a ou le sous-groupe

Si vous ne conditionnez rien, alors zéro CDD est égal à zéro si et seulement si DPL c'est zéro.

Cette métrique est utile pour explorer les concepts de discrimination directe et indirecte et de justification objective dans la législation et la jurisprudence de l'UE et du Royaume-Uni en matière de non-discrimination. Pour de plus amples informations, veuillez consulter Why Fairness Cannot Be Automated (Pourquoi l'équité ne peut pas être automatisée). Ce document contient également les données pertinentes et l'analyse du cas des admissions à Berkeley qui montre comment le fait de conditionner les taux d'admission à des sous-groupes de départements illustre le paradoxe de Simpson.