Différence de spécificité (SD) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Différence de spécificité (SD)

La différence de spécificité (SD) est la différence de spécificité entre la facette favorisée a et la facette défavorisée d. La spécificité mesure la fréquence à laquelle le modèle prédit correctement un résultat négatif (y'=0). La moindre différence dans ces spécificités est une forme potentielle de biais.

La spécificité est parfaite pour une facette si tous les cas où y=0 sont correctement prédits pour cette facette. La spécificité est plus élevée lorsque le modèle minimise les faux positifs, ce qui correspond à une erreur de type I. Par exemple, la différence entre une faible spécificité pour l'octroi de prêts aux membres de la facette a et une forte spécificité pour l'octroi de prêts aux membres de la facette d, est une mesure du biais contre la facette d.

La formule suivante permet de calculer la différence de spécificité pour les facettes a et d.

        SD = d TN/ (dTN+ FPd) - a TN/ (aTN+ FPa) = TNR d - TNR a

Les variables suivantes utilisées pour calculer SD sont définies comme suit :

  • TNd sont les vrais négatifs prédits pour la facetteD.

  • FPd sont les faux positifs prédits pour la facette d.

  • TNd correspond aux faux négatifs prédits pour la facette a.

  • FPd sont les faux positifs prédits pour la facette a.

  • TNRa= TNa/(TN a + FPa) est le véritable taux négatif, également connu sous le nom de spécificité, pour la facette a.

  • TNRd= TNd/(TN d + FPd) est le véritable taux négatif, également connu sous le nom de spécificité, pour la facette d.

Considérons, par exemple, les matrices de confusion suivantes pour les facettes a et d.

Matrice de confusion pour la facette favorisée a

Prédictions de Classe a Résultat réel 0 Résultat réel 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100

Matrice de confusion pour la facette défavorisée d

Prédictions de Classe d Résultat réel 0 Résultat réel 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

La valeur de la différence de spécificité est SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159, ce qui indique un biais contre la facette d.

La plage de valeurs pour la différence de spécificité entre les facettes a et d pour la classification binaire et multicatégorie est [-1, +1]. Cette métrique n'est pas disponible dans le cas d'étiquettes continues. Voici ce que les différentes valeurs de SD impliquent :

  • Des valeurs positives sont obtenues quand la spécificité est plus élevée pour la facette d que pour la facette a. Cela suggère que le modèle trouve moins de faux positifs pour la facette d que pour la facette a. Une valeur positive indique un biais contre la facette d.

  • Des valeurs proches de zéro indiquent que la spécificité pour les facettes comparées est similaire. Cela suggère que le modèle trouve un nombre similaire de faux positifs dans les deux facettes et qu'il n'est pas biaisé.

  • Des valeurs négatives sont obtenues quand la spécificité est plus élevée pour la facette a que pour la facette d. Cela suggère que le modèle trouve plus de faux positifs pour la facette a que pour la facette d. Une valeur négative indique un biais contre la facette a.