Différence d'acceptation conditionnelle (DCAcc) - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Différence d'acceptation conditionnelle (DCAcc)

Cette métrique compare les étiquettes observées aux étiquettes prédites par le modèle et évalue s'il en va de même entre les facettes pour les résultats positifs prédits. Cette métrique retype un peu le biais humain en ce sens qu'elle quantifie combien d'autres résultats positifs un modèle a prédits (étiquettes y') pour une certaine facette par rapport à ce qui a été observé dans le jeu de données d'entraînement (étiquettes y). Par exemple, si l'on observe dans le jeu de données d'entraînement plus d'acceptations (un résultat positif) pour les demandes de prêt d'un groupe d'âge moyen (facette a) que prévu par le modèle basé sur les qualifications, par rapport à la facette contenant d'autres groupes d'âge (facette d), cela pourrait indiquer un biais potentiel dans la façon dont les prêts ont été approuvés en favorisant le groupe d'âge moyen.

La formule de calcul de la différence d'acceptation conditionnelle :

        DCAcc = c a - c d

Où :

  • ca = na(1)/ n'a(1) est le rapport entre le nombre observé de résultats positifs de valeur 1 (acceptations) pour la facette a et le nombre prédit de résultats positifs (acceptations) pour la facette a.

  • cd = nd(1)/ n'd(1) est le rapport entre le nombre observé de résultats positifs de valeur 1 (acceptations) pour la facette d et le nombre prédit de résultats positifs (acceptations) pour la facette d.

La DCAcc métrique peut saisir les biais positifs et négatifs qui révèlent un traitement préférentiel basé sur les qualifications. Examinez, dans les cas suivants, l'incidence du biais basé sur l'âge, sur les acceptations de prêts.

Exemple 1 : biais positif

Supposons un jeu de données composé de 100 personnes d'âge moyen (facette a) et de 50 personnes d'autres groupes d'âge (facette d) qui ont demandé des prêts, le modèle recommandant l'octroi de prêts à 60 personnes de la facette a et 30 personnes de la facette d. Les proportions prédites ne sont donc pas biaisées par rapport à la métrique DPPL, mais les étiquettes observées montrent que des prêts ont été accordés à 70 personnes de la facette a et 20 personnes de la facette d. En d'autres termes, le modèle a accordé des prêts à 17 % de moins de personnes d'âge moyen que les étiquettes observées dans les données d'entraînement le suggéraient (70/60 = 1,17), et a accordé des prêts à 33 % de plus de personnes d'autres groupes d'âge que les étiquettes observées le suggéraient (20/30 = 0,67). Le calcul de la DCAcc valeur donne les résultats suivants :

        DCAcc = 70/60 - 20/30 = 1/2

La valeur positive indique qu'il existe un biais potentiel contre la facette a d'âge moyen avec un taux d'acceptation plus faible comparé à l'autre facette d, par rapport à ce que les données observées (considérées comme non biaisées) indiquent.

Exemple 2 : biais négatif

Supposons un jeu de données composé de 100 personnes d'âge moyen (facette a) et de 50 personnes d'autres groupes d'âge (facette d) qui ont demandé des prêts, le modèle recommandant l'octroi de prêts à 60 personnes de la facette a et 30 personnes de la facette d. Les proportions prédites ne sont donc pas biaisées par rapport à la métrique DPPL, mais les étiquettes observées montrent que des prêts ont été accordés à 50 personnes de la facette a et 40 personnes de la facette d. En d'autres termes, le modèle a accordé des prêts à 17 % de moins de personnes d'âge moyen que les étiquettes observées dans les données d'entraînement le suggéraient (50/60 = 0,83), et a accordé des prêts à 33 % de plus de personnes d'autres groupes d'âge que les étiquettes observées le suggéraient (40/30 = 1,33). Le calcul de la DCAcc valeur donne les résultats suivants :

        DCAcc = 50/60 - 40/30 = -1/2

La valeur négative indique qu'il existe un biais potentiel contre la facette d avec un taux d'acceptation plus faible comparé à la facette a d'âge moyen, par rapport à ce que les données observées (considérées comme non biaisées) indiquent.

Notez que vous pouvez l'utiliser DCAcc pour vous aider à détecter les biais potentiels (involontaires) causés par des humains supervisant les prédictions du modèle dans un environnement. human-in-the-loop Supposons, par exemple, que les prédictions y' du modèle ne soient pas biaisées, mais que la décision finale prise par un humain (ayant accès éventuellement à des fonctions supplémentaires) puisse modifier les prédictions du modèle pour générer une nouvelle version et une version finale de y'. Le traitement supplémentaire effectué par l'être humain peut involontairement refuser des prêts à un nombre disproportionné d'entre eux sous un angle. DCAccpeut aider à détecter de tels biais potentiels.

La plage de valeurs pour les différences d'acceptation conditionnelle des étiquettes binaires, multicatégorie et continues est (-∞, +∞).

  • Des valeurs positives se produisent lorsque le rapport entre le nombre observé d'acceptations par rapport aux acceptations prédites pour la facette a est supérieur au même rapport pour la facette d. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette a. Le biais apparent est d'autant plus extrême que la différence des rapports est importante.

  • Des valeurs proches de zéro se produisent lorsque le rapport entre le nombre observé d'acceptations par rapport aux acceptations prédites pour la facette a est identique au rapport pour la facette d. Ces valeurs indiquent que les taux d'acceptation prédits sont conformes aux valeurs observées dans les données étiquetées et que les candidats qualifiés des deux facettes sont acceptés de la même manière.

  • Des valeurs négatives se produisent lorsque le rapport entre le nombre observé d'acceptations par rapport aux acceptations prédites pour la facette a est inférieur à ce rapport pour la facette d. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette d. Le biais apparent est d'autant plus extrême que la différence des rapports est négative.