Disparità demografica condizionata () CDD - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Disparità demografica condizionata () CDD

La metrica della disparità demografica (DD) determina se un facet ha una percentuale maggiore dei risultati rifiutati nel set di dati rispetto ai risultati accettati. Nel caso binario in cui ci sono due facet, ad esempio uomini e donne, che costituiscono il set di dati, quello sfavorito è denominato facet d e quello preferito è etichettato come facet a. Ad esempio, nel caso delle ammissioni all'università, se le donne candidate costituivano il 46% dei candidati respinti e costituivano solo il 32% dei candidati accettati, affermiamo che esiste una disparità demografica perché la percentuale di donne respinte supera quella con cui vengono accettate. In questo caso le donne candidate sono etichettate come facet d. Se i candidati di sesso maschile rappresentavano il 54% dei richiedenti respinti e il 68% di quelli accettati, non vi è alcuna disparità demografica per questo facet, in quanto il tasso di rifiuto è inferiore a quello di accettazione. In questo caso i richiedenti sono etichettati come facet a.

La formula per la disparità demografica per il facet meno favorito d è la seguente:

        DDd = nd(0)/n(0) - nd(1)/n(1) = PdR(y0) - PdA(y1)

Dove:

  • n(0) = na(0) + nd(0) è il numero totale di risultati rifiutati nel set di dati per il facet favorito a e il facet svantaggiato d.

  • n(1) = na(1) + nd(1) è il numero totale di risultati accettati nel set di dati per il facet favorito a e il facet svantaggiato d.

  • PdR(y0) è la proporzione di risultati rifiutati (con valore 0) nel facet d.

  • PdA(y1) è la proporzione di risultati accettati (valore 1) nel facet d.

Per l'esempio dell'ammissione all'università, la disparità demografica per le donne è DDd = 0,46 - 0,32 = 0,14. Per gli uomini DDa = 0,54 - 0,68 = - 0,14.

Per escludere il paradosso di Simpson è necessaria una metrica condizionale di disparità demografica (CDD) che condiziona DD in base agli attributi che definiscono uno strato di sottogruppi nel set di dati. Il raggruppamento può fornire informazioni sulla causa delle apparenti disparità demografiche relative ai facet meno favoriti. Il caso classico è sorto nelle ammissioni a Berkeley, in cui gli uomini sono stati accettati a un tasso complessivo più elevato rispetto alle donne. Le statistiche relative a questo caso sono state utilizzate nei calcoli di esempio di DD. Tuttavia, quando sono stati esaminati i sottogruppi dipartimentali, è stato dimostrato che le donne hanno tassi di ammissione più elevati rispetto agli uomini se condizionate dal reparto. La spiegazione è data dal fatto che le donne si erano rivolte a reparti con tassi di accettazione inferiori rispetto agli uomini. L'esame dei tassi di accettazione suddivisi per sottogruppo ha rivelato che le donne erano effettivamente accettate a un tasso più elevato rispetto agli uomini nei dipartimenti con tassi di accettazione inferiori.

La CDD metrica fornisce un'unica misura per tutte le disparità riscontrate nei sottogruppi definiti da un attributo di un set di dati calcolandone la media. È definita come la media ponderata delle disparità demografiche (DDi) per ciascuno dei sottogruppi, con ogni disparità di sottogruppo ponderata in proporzione al numero di osservazioni contenute. La formula per la disparità demografica condizionata è la seguente:

        CDD= (1/n) 2 n DD * i i * i

Dove:

  • ini = è il numero totale di osservazioni e ni è il numero di osservazioni per ciascun sottogruppo.

  • DDi = ni(0)/n(0) - ni(1)/n(1) = PiR(y0) - PiA(y1) è la disparità demografica per l'nesimo sottogruppo.

La disparità demografica per un sottogruppo (DDi) è la differenza tra la percentuale di risultati rifiutati e la percentuale di risultati accettati per ciascun sottogruppo.

L'intervallo di valori DD per i risultati binari per l'intero set di dati DDd o per i relativi sottogruppi condizionati DDi è [-1, +1].

  • +1: quando non vi sono rifiuti nel facet a o nel sottogruppo e accettazioni nel facet d o nel sottogruppo

  • I valori positivi indicano che esiste una disparità demografica in quanto il facet d o il sottogruppo ha una percentuale maggiore di risultati rifiutati nel set di dati rispetto ai risultati accettati. Più alto è il valore, meno favorito è il facet e maggiore è la disparità.

  • I valori positivi indicano che non esiste una disparità demografica in quanto il facet d o il sottogruppo ha una percentuale maggiore di risultati accettati nel set di dati rispetto ai risultati rifiutati. Più basso è il valore, più il facet è favorito.

  • -1: quando non vi sono rifiuti nel facet d o nel sottogruppo e accettazioni nel facet a o nel sottogruppo

Se non si subordina nulla allora CDD è zero se e solo se DPL è zero.

Questa metrica è utile per esplorare i concetti di discriminazione diretta e indiretta e di giustificazione oggettiva nelle leggi e nella giurisprudenza contro la discriminazione nell'UE e nel Regno Unito. Per ulteriori informazioni, consulta Perché l'equità non può essere automatizzata. Questo documento contiene anche i dati e l'analisi pertinenti del caso di ammissione a Berkeley, che mostra come il condizionamento relativo ai sottogruppi dipartimentali del tasso di ammissione illustri il paradosso di Simpson.