Diferencia de especificidad (SD) - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diferencia de especificidad (SD)

La diferencia de especificidad (SD) es la diferencia de especificidad entre la faceta favorecida a y la faceta desfavorecida d. La especificidad mide la frecuencia con la que el modelo predice correctamente un resultado negativo (y'=0). Cualquier diferencia en estas especificidades es una posible forma de sesgo.

La especificidad es perfecta para una faceta si todos los casos y=0 se predicen correctamente para esa faceta. La especificidad es mayor cuando el modelo minimiza los falsos positivos, lo que se conoce como error de tipo I. Por ejemplo, la diferencia entre una especificidad baja para préstamos en la faceta a y una especificidad alta para préstamos en la faceta d es una medida del sesgo contra la faceta d.

La siguiente fórmula representa la diferencia en la especificidad de las facetas a y d.

        SD = TNd/(TN d + FPd) - TNa/(TN a + FPa) = TNR d - TNR a

Las siguientes variables utilizadas para calcular la SD se definen de la siguiente manera:

  • TNd son los verdaderos negativos predichos para la faceta d.

  • FPd son los falsos positivos predichos para la faceta d.

  • TNd son los verdaderos negativos predichos para la faceta a.

  • FPd son los falsos positivos predichos para la faceta a.

  • TNRa= TNa/(TN a + FPa) es la tasa negativa verdadera, también conocida como especificidad, de la faceta a.

  • TNRd= TNd/(TN d + FPd) es la tasa negativa verdadera, también conocida como especificidad, de la faceta d.

Por ejemplo, considere las siguientes matrices de confusión para las facetas a y d.

Matriz de confusión para la faceta favorecida a

Predicciones de clase A Resultado real 0 Resultado real 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100

Matriz de confusión para la faceta desfavorecida d

Predicciones de clase D Resultado real 0 Resultado real 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

El valor de la diferencia de especificidad es SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159, lo que indica un sesgo en contra de la faceta d.

El rango de valores de la diferencia de especificidad entre las facetas a y d para la clasificación binaria y multicategoría es [-1, +1]. Esta métrica no está disponible para el caso de etiquetas continuas. Esto es lo que implican los diferentes valores de SD:

  • Los valores positivos se obtienen cuando hay una mayor especificidad para la faceta d que para la faceta a. Esto sugiere que el modelo detecta menos falsos positivos para la faceta d que para la faceta a. Un valor positivo indica un sesgo en contra de la faceta d.

  • Los valores cercanos a cero indican que la especificidad de las facetas que se comparan es similar. Esto sugiere que el modelo detecta un número similar de falsos positivos en ambas facetas y no está sesgado.

  • Los valores negativos se obtienen cuando hay una mayor especificidad para la faceta a que para la faceta d. Esto sugiere que el modelo detecta más falsos positivos para la faceta a que para la faceta d. Un valor negativo indica un sesgo en contra de la faceta a.