Différence entre les proportions positives dans les étiquettes prédites (DPPL) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Différence entre les proportions positives dans les étiquettes prédites (DPPL)

La différence entre les proportions positives dans la métrique predicted labels (DPPL) détermine si le modèle prédit les résultats différemment pour chaque facette. Elle est définie comme la différence entre la proportion de prédictions positives (y' = 1) pour la facette a et la proportion de prédictions positives (y' = 1) pour la facette d. Par exemple, si le modèle prédit l'octroi de prêts à 60 % d'un groupe d'âge moyen (facette a) et à 50 % d'autres groupes d'âge (facette d), le biais peut être dirigé vers la facette d. Dans cet exemple, vous devez déterminer si la différence de 10 % est significative pour un cas de biais.

Une comparaison de la différence entre les proportions des étiquettes (DPL), une mesure du biais avant l'entraînementDPPL, avec une mesure du biais après l'entraînement, permet de déterminer si le biais dans les proportions positives initialement présentes dans l'ensemble de données change après l'entraînement. S'il DPPL est supérieur àDPL, le biais dans des proportions positives a augmenté après l'entraînement. S'il DPPL est inférieur àDPL, le modèle n'a pas augmenté le biais dans des proportions positives après l'entraînement. DPPLLa DPL comparaison ne garantit pas que le modèle réduise les biais dans toutes les dimensions. Par exemple, le modèle peut toujours être biaisé lorsqu'il prend en compte d'autres indicateurs tels que FlipTest contrefactuel (FT) ouDifférence de précision (AD). Pour plus d'informations sur la détection des biais, consultez le billet de blog Découvrez comment Amazon SageMaker Clarify aide à détecter les biais. Voir Différence de proportions entre les étiquettes (DPL) pour plus d'informations surDPL.

La formule DPPL est la suivante :

        DPPL= q' a - q' d

Où :

  • q'a = n'a(1)/na est la proportion prédite des membres de la facette a qui obtiennent un résultat positif de valeur 1. Dans notre exemple, la proportion d'une facette d'âge moyen à laquelle l'octroi d'un prêt est prédit. Ici, n'a(1) représente le nombre de membres de la facette a qui obtiennent un résultat positif prédit de valeur 1 et na est le nombre de membres de la facette a.

  • q'd = n'd(1)/nd est la proportion prédite des étiquettes de la facette d qui obtiennent un résultat positif de valeur 1. Dans notre exemple, une facette de personnes âgées et plus jeunes à laquelle l'octroi d'un prêt est prédit. Ici, n'd(1) représente le nombre de membres de la facette d qui obtiennent un résultat positif prédit et nd est le nombre de membres de la facette d.

Si elle DPPL est suffisamment proche de 0, cela signifie que la parité démographique après la formation a été atteinte.

Pour les étiquettes à facettes binaires et multicatégories, les DPL valeurs normalisées s'étendent sur l'intervalle [-1, 1]. Pour les étiquettes continues, les valeurs varient sur l'intervalle (-∞, +∞).

  • Les DPPL valeurs positives indiquent que la facette a présente une plus grande proportion de résultats positifs prédits par rapport à la facette d.

    D'où l'expression biais positif.

  • Des valeurs DPPL proches de zéro indiquent une proportion plus égale de résultats positifs prévus entre les facettes a et d, et une valeur nulle indique une parité démographique parfaite.

  • Les DPPL valeurs négatives indiquent que la facette d présente une plus grande proportion de résultats positifs prédits par rapport à la facette a. D'où l'expression biais négatif.