Disparidad demográfica condicional en las etiquetas previstas () CDDPL - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Disparidad demográfica condicional en las etiquetas previstas () CDDPL

La métrica de disparidad demográfica (DDPL) determina si la faceta d tiene una proporción mayor de etiquetas rechazadas previstas que de etiquetas aceptadas previstas. Permite comparar la diferencia entre la proporción de rechazo predicha y la proporción de aceptación predicha en todas las facetas. Esta métrica es exactamente la misma que la CDD métrica anterior al entrenamiento, excepto que se calcula a partir de las etiquetas pronosticadas en lugar de las observadas. Esta métrica se encuentra en el rango (-1,+1).

La fórmula para las predicciones de disparidad demográfica para las etiquetas de la faceta d es la siguiente:

        DDPLd= n' d (0) /n '(0) - n' d (1) /n' (1) = P d R (y' 0) - P d A (y' 1)

Donde:

  • n'(0) = n'a(0) + n'd(0) es el número de etiquetas rechazadas predichas para las facetas a y d.

  • n'(1) = n'a(1) + n'd(1) es el número de etiquetas aceptadas predichas para las facetas a y d.

  • PdR(y'0) es la proporción de etiquetas rechazadas predichas (valor 0) en la faceta d.

  • PdA(y'1) es la proporción de etiquetas aceptadas predichas (valor 1) en la faceta d.

Para descartar la paradoja de Simpson, se necesita una disparidad demográfica condicional en la métrica de etiquetas pronosticadas (CDDPL) que DDPL condicione los atributos que definen un estrato o subgrupos del conjunto de datos. La reagrupación puede proporcionar información sobre la causa de las aparentes disparidades demográficas en las facetas menos favorecidas. El caso clásico surgió en el caso de las admisiones en Berkeley, donde en general los hombres eran aceptados a una tasa más alta que las mujeres. Sin embargo, cuando se examinaron los subgrupos departamentales, se comprobó que las mujeres tenían tasas de admisión más altas que los hombres por departamento. La explicación es que las mujeres se habían presentado a departamentos con tasas de aceptación más bajas que las de los hombres. El examen de las tasas de aceptación del subgrupo reveló que, de hecho, las mujeres eran aceptadas en mayor medida que los hombres en los departamentos con tasas de aceptación más bajas.

La CDDPL métrica proporciona una medida única para todas las disparidades encontradas en los subgrupos definidos por un atributo de un conjunto de datos al promediarlas. Se define como el promedio ponderado de las disparidades demográficas en las etiquetas pronosticadas (DDPLi) para cada uno de los subgrupos, y la disparidad de cada subgrupo se pondera en proporción al número de observaciones que contiene. La fórmula de la disparidad demográfica condicional en las etiquetas predichas es la siguiente:

        CDDPL= (1/n) n * i i * DDPL i

Donde:

  • ini = n es el número total de observaciones y n i es el número de observaciones de cada subgrupo.

  • DDPLi= n' i (0) /n (0) - n' i (1) /n (1) = P i R (y' 0) - P i A (y' 1) es la disparidad demográfica en las etiquetas pronosticadas para el subgrupo.

Por lo tanto, la disparidad demográfica de un subgrupo en las etiquetas pronosticadas (DDPLi) es la diferencia entre la proporción de etiquetas rechazadas pronosticadas y la proporción de etiquetas aceptadas previstas para cada subgrupo.

El rango de DDPL valores para los resultados binarios, multicategoriales y continuos es [-1, +1].

  • +1: cuando no hay etiquetas de rechazo predichas para la faceta a o el subgrupo ni aceptaciones predichas para la faceta d o el subgrupo.

  • Los valores positivos indican que hay una disparidad demográfica en las etiquetas predichas, ya que la faceta d o el subgrupo tiene una proporción mayor de etiquetas predichas rechazadas que de etiquetas predichas aceptadas. Cuanto mayor sea el valor, mayor será la disparidad.

  • Los valores cercanos a cero indican que, en promedio, no hay disparidad demográfica.

  • Los valores negativos indican que hay una disparidad demográfica en las etiquetas predichas, ya que la faceta a o el subgrupo tiene una proporción mayor de etiquetas predichas rechazadas que de etiquetas predichas aceptadas. Cuanto menor sea el valor, mayor será la disparidad.

  • -1: cuando no hay etiquetas de rechazo predichas para la faceta d o el subgrupo ni aceptaciones predichas para la faceta a o el subgrupo.