Différence dans les proportions positives des étiquettes prédites (DPPL)

La métrique Différence de proportions positives dans les étiquettes prédites (DPPL) détermine si le modèle prédit les résultats différemment pour chaque facette. Elle est définie comme la différence entre la proportion de prédictions positives (y' = 1) pour la facette a et la proportion de prédictions positives (y' = 1) pour la facette d. Par exemple, si le modèle prédit l'octroi de prêts à 60 % d'un groupe d'âge moyen (facette a) et à 50 % d'autres groupes d'âge (facette d), le biais peut être dirigé vers la facette d. Dans cet exemple, vous devez déterminer si la différence de 10 % est significative pour un cas de biais.

Une comparaison de la différence dans les proportions d'étiquettes (DPL), une mesure du biais avant l'entraînement, avec le DPPL, une mesure du biais après l'entraînement, permet de déterminer si le biais dans les proportions positives initialement présentes dans l'ensemble de données change après l'entraînement. Si le DPPL est supérieur au DPL, le biais dans des proportions positives augmente après l'entraînement. Si le DPPL est inférieur au DPL, le modèle n'a pas augmenté le biais dans des proportions positives après l'entraînement. La comparaison entre DPL et DPPL ne garantit pas que le modèle réduit les biais dans toutes les dimensions. Par exemple, le modèle peut toujours être biaisé lorsqu'il prend en compte d'autres indicateurs tels que FlipTest contrefactuel (FT) ouDifférence de précision (AD). Pour plus d'informations sur la détection des biais, consultez le billet de blog Découvrez comment Amazon SageMaker Clarify aide à détecter les biais. Voir Différence dans les proportions d'étiquettes (DPL) pour plus d'informations sur le DPL.

La formule du DPPL est la suivante :

DPPL = q'_a - q'_d

Où :

q'_a = n'_a⁽¹⁾/n_a est la proportion prédite des membres de la facette a qui obtiennent un résultat positif de valeur 1. Dans notre exemple, la proportion d'une facette d'âge moyen à laquelle l'octroi d'un prêt est prédit. Ici, n'_a⁽¹⁾ représente le nombre de membres de la facette a qui obtiennent un résultat positif prédit de valeur 1 et n_a est le nombre de membres de la facette a.
q'_d = n'_d⁽¹⁾/n_d est la proportion prédite des étiquettes de la facette d qui obtiennent un résultat positif de valeur 1. Dans notre exemple, une facette de personnes âgées et plus jeunes à laquelle l'octroi d'un prêt est prédit. Ici, n'_d⁽¹⁾ représente le nombre de membres de la facette d qui obtiennent un résultat positif prédit et n_d est le nombre de membres de la facette d.

Si la DPPL est suffisamment proche de 0, cela signifie que la parité démographique de post-entraînement est atteinte.

Pour les étiquettes de facettes binaires et multicatégorie, les valeurs de DPL normalisées s'échelonnent sur l'intervalle [-1, 1]. Pour les étiquettes continues, les valeurs varient sur l'intervalle (-∞, +∞).

Des valeurs DPPL positives indiquent qu'une proportion plus élevée de résultats positifs est prédite à la facette a par rapport à la facette d.

D'où l'expression biais positif.
Des valeurs de DPPL proches de zéro indiquent qu'une proportion plus égale de résultats positifs est prédite aux facettes a et d, tandis qu'une valeur de zéro indique une parfaite parité démographique.
Des valeurs DPPL négatives indiquent qu'une proportion plus élevée de résultats positifs est prédite à la facette d par rapport à la facette a. D'où l'expression biais négatif.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Données post-entraînement et mesures de biais du modèle

Impact disparate (DI)