Différence de rejet conditionnel (DCR) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Différence de rejet conditionnel (DCR)

Cette métrique compare les étiquettes observées aux étiquettes prédites par le modèle et évalue s'il en va de même entre les facettes pour les résultats négatifs (rejets). Cette métrique retype un peu le biais humain en ce sens qu'elle quantifie combien d'autres résultats négatifs un modèle a prédits (étiquettes prédites y') pour une certaine facette par rapport à ce qui a été suggéré par les étiquettes dans le jeu de données d'entraînement (étiquettes observées y). Par exemple, si les rejets observés (un résultat négatif) pour les demandes de prêt d'un groupe d'âge moyen (facette a) étaient plus nombreux que ceux prédits par le modèle basé sur les qualifications, par rapport à la facette contenant d'autres groupes d'âge (facette d), cela pourrait indiquer un biais potentiel dans la façon dont les prêts ont été rejetés. Ce biais favoriserait le groupe d'âge moyen par rapport aux autres groupes.

La formule de calcul de la différence d'acceptation conditionnelle :

        DCR= r d - r a

Où :

  • rd = nd(0)/ n'd(0) est le rapport entre le nombre observé de résultats négatifs de valeur 0 (rejets) de la facette d et le nombre prédit de résultats négatifs (rejets) pour la facette d.

  • ra = na(0)/ n'a(0) est le rapport entre le nombre observé de résultats négatifs de valeur 0 (rejets) de la facette a et le nombre prédit de résultats négatifs de valeur 0 (rejets) pour la facette a.

La DCR métrique peut saisir les biais positifs et négatifs qui révèlent un traitement préférentiel basé sur les qualifications. Examinez, dans les cas suivants, l'incidence du biais sur les rejets de prêts en fonction de l'âge.

Exemple 1 : biais positif

Supposons un jeu de données composé de 100 personnes d'âge moyen (facette a) et de 50 personnes d'autres groupes d'âge (facette d) qui ont demandé des prêts, le modèle recommandant le rejet de prêts à 60 personnes de la facette a et à 30 personnes de la facette d. Les proportions prédites ne sont donc pas biaisées par la DPPL métrique, mais les étiquettes observées montrent que 50 pour la facette a et 40 pour la facette d ont été rejetées. En d'autres termes, le modèle a rejeté 17 % de prêts de plus pour la facette d'âge moyen que ce que les étiquettes observées dans les données d'entraînement suggéraient (50/60 = 0,83). Il a aussi rejeté 33 % de prêts de moins pour les autres groupes d'âge que ce que les étiquettes observées suggéraient (40/30 = 1,33). La DCR valeur quantifie cette différence dans le rapport entre les taux de rejet observés et prévus entre les facettes. La valeur positive indique qu'il existe un biais potentiel favorisant le groupe d'âge moyen avec des taux de rejet plus faibles par rapport aux autres groupes que les données observées (considérées comme non biaisées) ne l'indiquent.

        DCR= 40/30 - 50/60 = 1/2

Exemple 2 : biais négatif

Supposons un jeu de données composé de 100 personnes d'âge moyen (facette a) et de 50 personnes d'autres groupes d'âge (facette d) qui ont demandé des prêts, le modèle recommandant le rejet de prêts à 60 personnes de la facette a et à 30 personnes de la facette d. Les proportions prédites ne sont donc pas biaisées par la DPPL métrique, mais les étiquettes observées montrent que 70 pour la facette a et 20 pour la facette d ont été rejetées. En d'autres termes, le modèle a rejeté 17 % de prêts de moins pour la facette des personnes d'âge moyen que ce que les étiquettes observées dans les données d'entraînement suggéraient (70/60 = 1,17). Il a également rejeté 33 % de prêts de plus pour les autres groupes d'âge que ce que les étiquettes observées suggéraient (20/30 = 0,67). La valeur négative indique qu'il existe un biais potentiel favorisant la facette a avec des taux de rejet plus faibles comparé à la facette a d'âge moyen, par rapport à ce que les données observées (considérées comme non biaisées) indiquent.

        DCR= 20/30 - 70/60 = -1/2

La plage de valeurs pour les différences de rejet conditionnel des étiquettes binaires, multicatégorie et continues est (-∞, +∞).

  • Des valeurs positives se produisent lorsque le rapport entre le nombre observé de rejets et les rejets prédits pour la facette d est supérieur au même rapport pour la facette a. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette a. Plus la valeur de la DCR métrique est élevée, plus le biais apparent est extrême.

  • Des valeurs proches de zéro se produisent lorsque le rapport entre le nombre observé de rejets et les acceptations prédites pour la facette a est similaire au rapport pour la facette d. Ces valeurs indiquent que les taux de rejets prédits sont conformes aux valeurs observées dans les données étiquetées et que les rejets s'appliquent de la même manière aux candidats qualifiés des deux facettes.

  • Des valeurs négatives se produisent lorsque le rapport entre le nombre observé de rejets et les rejets prédits pour la facette d est inférieur au rapport pour la facette a. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette d. Plus l'amplitude de la DCR métrique négative est grande, plus le biais apparent est extrême.