Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Diferencia de coincidencias (RD)
La métrica de diferencia de coincidencias (RD) es la diferencia de coincidencias del modelo entre la faceta favorecida a y la faceta desfavorecida d. Cualquier diferencia en estas coincidencias es una posible forma de sesgo. La coincidencia es la tasa de positivos verdaderos (TPR), que mide la frecuencia con la que el modelo predice correctamente los casos que deberían recibir un resultado positivo. La coincidencia es perfecta para una faceta si todos los casos y=1 se predicen como y’=1 para esa faceta. La coincidencia es mayor cuando el modelo minimiza los falsos negativos, lo que se conoce como error de tipo II. Por ejemplo, ¿cuántas personas de dos grupos diferentes (facetas a y d) que deberían reunir los requisitos para obtener préstamos son detectadas correctamente por el modelo? Si la tasa de coincidencia es alta para los préstamos a la faceta a, pero baja para los préstamos a la faceta d, la diferencia proporciona una medida de este sesgo respecto del grupo que pertenece a la faceta d.
La fórmula para la diferencia de las tasas de coincidencias de las facetas a y d es la siguiente:
RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd
Donde:
-
TPa son los verdaderos positivos predichos para la faceta a.
-
FNa son los falsos negativos predichos para la faceta a.
-
TPd son los verdaderos positivos predichos para la faceta d.
-
FNd son los falsos negativos predichos para la faceta d.
-
TPRa = TPa/(TPa + FNa) es la coincidencia para la faceta a, o su tasa positiva verdadera.
-
TPRd TPd/(TPd + FNd) es la coincidencia para la faceta d, o su tasa positiva verdadera.
Por ejemplo, considere las siguientes matrices de confusión para las facetas a y d.
Matriz de confusión para la faceta favorecida A
Predicciones de clase A | Resultado real 0 | Resultado real 1 | Total |
---|---|---|---|
0 | 20 | 5 | 25 |
1 | 10 | 65 | 75 |
Total | 30 | 70 | 100 |
Matriz de confusión para la faceta desfavorecida D
Predicciones de clase D | Resultado real 0 | Resultado real 1 | Total |
---|---|---|---|
0 | 18 | 7 | 25 |
1 | 5 | 20 | 25 |
Total | 23 | 27 | 50 |
El valor de la diferencia de coincidencias es RD = 65/70 - 20/27 = 0,93 - 0,74 = 0,19, lo que indica un sesgo en contra de la faceta d.
El rango de valores de la diferencia de coincidencias entre las facetas a y d para la clasificación binaria y multicategoría es [-1, +1]. Esta métrica no está disponible para el caso de etiquetas continuas.
-
Los valores positivos se obtienen cuando hay una mayor coincidencia para la faceta a que para la faceta d. Esto sugiere que el modelo detecta más positivos verdaderos para la faceta a que para la faceta d, lo cual es una forma de sesgo.
-
Los valores cercanos a cero indican que la coincidencia de las facetas que se comparan es similar. Esto sugiere que el modelo detecta aproximadamente el mismo número de positivos verdaderos en ambas facetas y no está sesgado.
-
Los valores negativos se obtienen cuando hay una mayor coincidencia para la faceta d que para la faceta a. Esto sugiere que el modelo detecta más positivos verdaderos para la faceta d que para la faceta a, lo cual es una forma de sesgo.