Diferencia de coincidencias (RD)

La métrica de diferencia de coincidencias (RD) es la diferencia de coincidencias del modelo entre la faceta favorecida a y la faceta desfavorecida d. Cualquier diferencia en estas coincidencias es una posible forma de sesgo. La coincidencia es la tasa de positivos verdaderos (TPR), que mide la frecuencia con la que el modelo predice correctamente los casos que deberían recibir un resultado positivo. La coincidencia es perfecta para una faceta si todos los casos y=1 se predicen como y’=1 para esa faceta. La coincidencia es mayor cuando el modelo minimiza los falsos negativos, lo que se conoce como error de tipo II. Por ejemplo, ¿cuántas personas de dos grupos diferentes (facetas a y d) que deberían reunir los requisitos para obtener préstamos son detectadas correctamente por el modelo? Si la tasa de coincidencia es alta para los préstamos a la faceta a, pero baja para los préstamos a la faceta d, la diferencia proporciona una medida de este sesgo respecto del grupo que pertenece a la faceta d.

La fórmula para la diferencia de las tasas de coincidencias de las facetas a y d es la siguiente:

RD = TP_a/(TP_a + FN_a) - TP_d/(TP_d + FN_d) = TPR_a - TPR_d

Donde:

TP_a son los verdaderos positivos predichos para la faceta a.
FN_a son los falsos negativos predichos para la faceta a.
TP_d son los verdaderos positivos predichos para la faceta d.
FN_d son los falsos negativos predichos para la faceta d.
TPR_a = TP_a/(TP_a + FN_a) es la coincidencia para la faceta a, o su tasa positiva verdadera.
TPR_d TP_d/(TP_d + FN_d) es la coincidencia para la faceta d, o su tasa positiva verdadera.

Por ejemplo, considere las siguientes matrices de confusión para las facetas a y d.

Matriz de confusión para la faceta favorecida A

Predicciones de clase A	Resultado real 0	Resultado real 1	Total
0	20	5	25
1	10	65	75
Total	30	70	100

Matriz de confusión para la faceta desfavorecida D

Predicciones de clase D	Resultado real 0	Resultado real 1	Total
0	18	7	25
1	5	20	25
Total	23	27	50

El valor de la diferencia de coincidencias es RD = 65/70 - 20/27 = 0,93 - 0,74 = 0,19, lo que indica un sesgo en contra de la faceta d.

El rango de valores de la diferencia de coincidencias entre las facetas a y d para la clasificación binaria y multicategoría es [-1, +1]. Esta métrica no está disponible para el caso de etiquetas continuas.

Los valores positivos se obtienen cuando hay una mayor coincidencia para la faceta a que para la faceta d. Esto sugiere que el modelo detecta más positivos verdaderos para la faceta a que para la faceta d, lo cual es una forma de sesgo.
Los valores cercanos a cero indican que la coincidencia de las facetas que se comparan es similar. Esto sugiere que el modelo detecta aproximadamente el mismo número de positivos verdaderos en ambas facetas y no está sesgado.
Los valores negativos se obtienen cuando hay una mayor coincidencia para la faceta d que para la faceta a. Esto sugiere que el modelo detecta más positivos verdaderos para la faceta d que para la faceta a, lo cual es una forma de sesgo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Diferencia de especificidad (SD)

Diferencia en tasas de aceptación (DAR)