Disparité démographique conditionnelle dans les étiquettes prédites () CDDPL - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Disparité démographique conditionnelle dans les étiquettes prédites () CDDPL

La métrique de disparité démographique (DDPL) détermine si la facette d contient une plus grande proportion d'étiquettes rejetées prévues que d'étiquettes acceptées prédites. Elle permet de comparer la différence entre la proportion de rejets prédite et la proportion d'acceptations prédite selon les facettes. Cette métrique est exactement la même que la CDD métrique de pré-entraînement, sauf qu'elle est calculée à partir des étiquettes prédites plutôt que de celles observées. Cette métrique se situe dans la plage (-1, +1).

La formule de calcul des prédictions de disparité démographique pour les étiquettes de la facette d est la suivante :

        DDPLd= n'd(0) /n '(0) - n'd(1) /n' (1) = P d R (y' 0) - P d A (y' 1)

Où :

  • n'(0) = n'a(0) + n'd(0) est le nombre d'étiquettes rejetées prédites pour les facettes a et d.

  • n'(1) = n'a(1) + n'd(1) est le nombre d'étiquettes acceptées prédites pour les facettes a et d.

  • PdR(y'0) est la proportion d'étiquettes rejetées prédites (valeur 0) dans la facette d.

  • PdA(y'1) est la proportion d'étiquettes acceptées prédites (valeur 1) dans la facette d.

Une métrique de disparité démographique conditionnelle dans les étiquettes prédites (CDDPL) qui conditionne DDPL les attributs définissant une strate de sous-groupes dans le jeu de données est nécessaire pour exclure le paradoxe de Simpson. Le regroupement peut donner des informations sur la cause des disparités démographiques apparentes pour les facettes moins favorisées. Le cas classique s'est produit lors des admissions à Berkeley où les hommes étaient globalement acceptés à un taux plus élevé que les femmes. Cependant, à l'examen des sous-groupes départementaux, les taux d'admission des femmes étaient supérieurs à ceux des hommes. Cela venait du fait que les femmes avaient déposé une demande dans des départements où les taux d'acceptation étaient inférieurs à ceux des hommes. L'examen des taux d'acceptation des sous-groupes a révélé que les femmes étaient effectivement acceptées à un taux plus élevé que les hommes dans les départements où les taux d'acceptation étaient inférieurs.

La CDDPL métrique fournit une mesure unique pour toutes les disparités constatées dans les sous-groupes définis par un attribut d'un ensemble de données en faisant la moyenne de ces disparités. Elle est définie comme la moyenne pondérée des disparités démographiques dans les étiquettes prédites (DDPLi) pour chacun des sous-groupes, chaque disparité de sous-groupe étant pondérée proportionnellement au nombre d'observations contenues dans le conteneur. La formule de calcul de la disparité démographique conditionnelle dans les étiquettes prédites est la suivante :

        CDDPL= (1/n*) i i * DDPL i

Où :

  • ini = n est le nombre total d'observations et ni est le nombre d'observations pour chaque sous-groupe.

  • DDPLi= n'i(0) /n (0) - n'i(1) /n (1) = P i R (y' 0) - P i A (y' 1) est la disparité démographique dans les étiquettes prédites pour le sous-groupe.

La disparité démographique d'un sous-groupe dans les étiquettes prédites (DDPLi) est donc la différence entre la proportion d'étiquettes rejetées prévues et la proportion d'étiquettes acceptées prévues pour chaque sous-groupe.

La plage de DDPL valeurs pour les résultats binaires, multicatégories et continus est [-1, +1].

  • +1 : lorsqu'il n'y a aucune étiquette de rejet prédite pour la facette a ou le sous-groupe, et aucune acceptation prédite pour la facette d ou le sous-groupe.

  • Des valeurs positives indiquent une disparité démographique dans les étiquettes prédites du fait que la proportion d'étiquettes rejetées prédites pour la facette d ou le sous-groupe est supérieure à celle d'étiquettes acceptées prédites. La disparité est d'autant plus importante que la valeur est élevée.

  • Des valeurs proches de zéro indiquent qu'il n'y a pas de disparité démographique en moyenne.

  • Des valeurs négatives indiquent une disparité démographique dans les étiquettes prédites du fait que la proportion d'étiquettes rejetées prédites pour la facette a ou le sous-groupe est supérieure à celle d'étiquettes acceptées prédites. La disparité est d'autant plus importante que la valeur est faible.

  • -1 : lorsqu'il n'y a aucune étiquette de rejet prédite pour la facette d ou le sous-groupe, et aucune acceptation prédite pour la facette d ou le sous-groupe.