Diferencia en tasas de rechazo (DRR) - Amazon SageMaker

Diferencia en tasas de rechazo (DRR)

La métrica de diferencia en tasas de rechazo (DRR) es la diferencia en las relaciones entre las predicciones negativas verdaderas (TN) y las negativas observadas (TN + FN) para las facetas a y d. Esta métrica mide la diferencia en la precisión del modelo para predecir los rechazos de estas dos facetas. La precisión mide la fracción de candidatos no cualificados del grupo de candidatos no cualificados que el modelo identifica como tales. Si la precisión del modelo para predecir los candidatos no cualificados difiere de una faceta a otra, se trata de un sesgo y la DAR mide su magnitud.

La fórmula para la diferencia en tasas de rechazo entre las facetas a y d es la siguiente:

        DRR = TNd/(TNd + FNd) - TNa/(TNa + FNa)

Los componentes de la ecuación DRR anterior son los siguientes.

  • TNd son los verdaderos negativos predichos para la faceta d.

  • FNd son los falsos negativos predichos para la faceta d.

  • TPa son los verdaderos negativos predichos para la faceta a.

  • FNa son los falsos negativos predichos para la faceta a.

Por ejemplo, suponga que el modelo rechaza a 100 solicitantes de mediana edad (faceta a) para un préstamo (etiquetas negativas predichas), de las cuales 80 no cumplen los requisitos (etiquetas negativas observadas). Suponga también que el modelo rechaza a 50 solicitantes de otros grupos de edad (faceta d) para un préstamo (etiquetas negativas predichas), de las cuales 40 no cumplen los requisitos (etiquetas negativas observadas). Entonces, DRR = 40/50 - 80/100 = 0, por lo que no se indica ningún sesgo.

El rango de valores DRR para etiquetas de facetas multicategoría, binarias y continuas es [-1, +1].

  • Los valores positivos se producen cuando la relación entre los resultados negativos predichos (rechazos) y los resultados negativos observados (candidatos no cualificados) para la faceta d es mayor que la misma relación para la faceta a. Estos valores indican un posible sesgo en contra de la faceta favorecida a provocado por la ocurrencia de un número relativamente mayor de falsos negativos en la faceta a. Cuanto mayor sea la diferencia de las relaciones, más extremo será el sesgo aparente.

  • Los valores cercanos a cero se producen cuando la relación entre los resultados negativos predichos (rechazos) y los resultados negativos observados (candidatos no cualificados) en las facetas a y d tiene valores similares, lo que indica que las etiquetas observadas de resultados negativos están siendo predichas con la misma precisión por el modelo.

  • Los valores negativos se producen cuando la relación entre los resultados negativos predichos (rechazos) y los resultados negativos observados (candidatos no cualificados) para la faceta a es mayor que la misma relación para la faceta d. Estos valores indican un posible sesgo en contra de la faceta desfavorecida d debido a la ocurrencia de un número relativamente mayor de falsos positivos en la faceta d. Cuanto más negativa sea la diferencia de las relaciones, más extremo será el sesgo aparente.