Disparidad demográfica condicional (CDD) - Amazon SageMaker

Disparidad demográfica condicional (CDD)

La métrica de disparidad demográfica (DD) determina si una faceta tiene una proporción mayor de los resultados rechazados en el conjunto de datos que de los resultados aceptados. En el caso binario en el que hay dos facetas, hombres y mujeres, por ejemplo, que constituyen el conjunto de datos, la desfavorecida se etiqueta como faceta d y la favorecida se etiqueta como faceta a. Por ejemplo, en el caso de las admisiones a la universidad, si las mujeres candidatas representaban el 46 % de los solicitantes rechazados y solo el 32 % de los solicitantes aceptados, decimos que existe una disparidad demográfica porque la tasa de mujeres rechazadas supera la tasa de las aceptadas. En este caso, las mujeres candidatas se etiquetan en la faceta d. Si los candidatos varones representaban el 54 % de los solicitantes rechazados y el 68 % de los aceptados, entonces no existe una disparidad demográfica en este aspecto, ya que la tasa de rechazo es inferior a la tasa de aceptación. En este caso, las mujeres candidatas se etiquetan en la faceta a.

La fórmula de la disparidad demográfica para la faceta d menos favorecida es la siguiente:

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1)

Donde:

  • n(0) = na(0) + nd(0) es el número total de resultados rechazados en el conjunto de datos para la faceta favorecida a y la faceta desfavorecida d.

  • n(1) = na(1) + nd(1) es el número total de resultados aceptados en el conjunto de datos para la faceta favorecida a y la faceta desfavorecida d.

  • PdR(y0) es la proporción de resultados rechazados (con un valor 0) en la faceta d.

  • PdA(y1) es la proporción de resultados aceptados (valor 1) en la faceta d.

En el ejemplo de admisión a la universidad, la disparidad demográfica entre las mujeres es DDd = 0,46 - 0,32 = 0,14. En el caso de los varones, DDa = 0,54 - 0,68 = - 0,14.

Para descartar la paradoja de Simpson, se requiere una métrica de disparidad demográfica condicional (CDD) que condicione la DD a los atributos que definen un estrato o subgrupos del conjunto de datos. La reagrupación puede proporcionar información sobre la causa de las aparentes disparidades demográficas en las facetas menos favorecidas. El caso clásico surgió en el caso de las admisiones en Berkeley, donde en general los hombres eran aceptados a una tasa más alta que las mujeres. Las estadísticas de este caso se utilizaron en los cálculos de ejemplo de la DD. Sin embargo, cuando se examinaron los subgrupos departamentales, se comprobó que las tasas de admisión de mujeres eran más altas que las de los hombres si estaban condicionadas por departamento. La explicación es que las mujeres se habían presentado a departamentos con tasas de aceptación más bajas que las de los hombres. El examen de las tasas de aceptación subagrupadas reveló que, de hecho, las mujeres eran aceptadas en mayor medida que los hombres en los departamentos con tasas de aceptación más bajas.

La métrica CDD proporciona una medida única para todas las disparidades detectadas en los subgrupos definidos por un atributo de un conjunto de datos al promediarlas. Se define como el promedio ponderado de las disparidades demográficas (DDi) para cada uno de los subgrupos, y la disparidad de cada subgrupo se pondera en proporción al número de observaciones que contiene. La fórmula de la disparidad demográfica condicional es la siguiente:

        CDD = (1/n)*ini *DDi

Donde:

  • ini = n es el número total de observaciones y n i es el número de observaciones de cada subgrupo.

  • DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) es la disparidad demográfica del i-ésimo subgrupo.

La disparidad demográfica de un subgrupo (DDi) es la diferencia entre la proporción de resultados rechazados y la proporción de resultados aceptados en cada subgrupo.

El rango de valores DD para los resultados binarios para todo el conjunto de datos DDd o para sus subgrupos condicionados DDi es [-1, +1].

  • +1: cuando no hay rechazos en la faceta a o el subgrupo ni aceptaciones en la faceta d o el subgrupo

  • Los valores positivos indican que existe una disparidad demográfica, ya que la faceta d o el subgrupo tiene una mayor proporción de resultados rechazados en el conjunto de datos que de resultados aceptados. Cuanto mayor sea el valor, menos favorecida será la faceta y mayor será la disparidad.

  • Los valores indican que no existe una disparidad demográfica, ya que la faceta d o el subgrupo tiene una mayor proporción de resultados aceptados en el conjunto de datos que de resultados rechazados. Cuanto más bajo sea el valor, más favorecida será la faceta.

  • -1: cuando no hay rechazos en la faceta d o el subgrupo ni aceptaciones en la faceta a o el subgrupo

Si no se condiciona a nada, entonces CDD es cero si y solo si DPL es cero.

Esta métrica es útil para explorar los conceptos de discriminación directa e indirecta y de justificación objetiva en la legislación y la jurisprudencia de no discriminación de la UE y el Reino Unido. Para obtener más información, consulte Why Fairness Cannot Be Automated. Este documento también contiene los datos pertinentes y el análisis del caso de admisiones de Berkeley que muestran cómo la condicionalidad a los subgrupos de tasas de admisión departamentales ilustra la paradoja de Simpson.