Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Disparità demografica condizionale nelle etichette previste () CDDPL
La metrica sulla disparità demografica (DDPL) determina se il facet d ha una percentuale maggiore delle etichette rifiutate previste rispetto alle etichette accettate previste. Consente di confrontare la differenza tra la percentuale di rifiuto prevista e la percentuale di accettazione prevista tra i diversi facet. Questa metrica è esattamente la stessa della CDD metrica pre-allenamento, tranne per il fatto che viene calcolata in base alle etichette previste anziché a quelle osservate. Questa metrica è compresa nell'intervallo (-1,+1).
La formula per le previsioni della disparità demografica per le etichette del facet d è la seguente:
DDPLd= n'd(0) /n '(0) - n'd(1) /n' (1) = P d R (i' 0) - P d A (i' 1)
Dove:
-
n'(0) = n'a(0) + n'd(0) è il numero di etichette rifiutate previste per i facet a e d.
-
n'(1) = n'a(1) + n'd(1) è il numero di etichette accettate previste per i facet a e d.
-
PdR(y'0) è la proporzione di etichette rifiutate previste (valore 0) nel facet d.
-
PdA(y'1) è la proporzione di etichette accettate previste (valore 1) nel facet d.
Per escludere il paradosso di Simpson è necessaria una disparità demografica condizionata nella metrica predicted labels (CDDPL) che condiziona gli attributi che definiscono uno strato di sottogruppi DDPL sul set di dati. Il raggruppamento può fornire informazioni sulla causa delle apparenti disparità demografiche relative ai facet meno favoriti. Il caso classico è sorto nelle ammissioni a Berkeley, in cui gli uomini sono stati accettati a un tasso complessivo più elevato rispetto alle donne. Tuttavia, quando sono stati esaminati i sottogruppi dipartimentali, è stato dimostrato che le donne hanno tassi di ammissione più elevati rispetto agli uomini dal reparto. La spiegazione è data dal fatto che le donne si erano rivolte a reparti con tassi di accettazione inferiori rispetto agli uomini. L'esame dei tassi di accettazione suddivisi per sottogruppo ha rivelato che le donne erano effettivamente accettate a un tasso più elevato rispetto agli uomini nei dipartimenti con tassi di accettazione inferiori.
La CDDPL metrica fornisce un'unica misura per tutte le disparità riscontrate nei sottogruppi definiti da un attributo di un set di dati calcolandone la media. È definita come la media ponderata delle disparità demografiche nelle etichette previste (DDPLi) per ciascuno dei sottogruppi, con ogni disparità di sottogruppo ponderata in proporzione al numero di osservazioni contenute. La formula per la disparità demografica condizionata nelle etichette previste è la seguente:
CDDPLi= (1/n) n * i * DDPL i
Dove:
-
∑ini = è il numero totale di osservazioni e ni è il numero di osservazioni per ciascun sottogruppo.
-
DDPLi= n'i(0) /n (0) - n' (1) /n i (1) = P i R (y' 0) - P i A (y' 1) è la disparità demografica nelle etichette previste per il sottogruppo.
Quindi la disparità demografica per un sottogruppo nelle etichette previste (DDPLi) è la differenza tra la percentuale di etichette rifiutate previste e la proporzione di etichette accettate previste per ogni sottogruppo.
L'intervallo di DDPL valori per i risultati binari, multicategorie e continui è [-1, +1].
-
+1: quando non esistono etichette di rifiuto previste per il facet a o il sottogruppo e non sono previste accettazioni per il facet d o il sottogruppo.
-
I valori positivi indicano che esiste una disparità demografica nelle etichette previste, poiché il facet d o il sottogruppo hanno una percentuale maggiore di etichette rifiutate previste rispetto alle etichette accettate previste. Più alto è il valore, maggiore è la disparità.
-
I valori vicini allo zero indicano l'assenza di disparità demografica, in media.
-
I valori negativi indicano che esiste una disparità demografica nelle etichette previste, poiché il facet a o il sottogruppo presenta una percentuale maggiore di etichette rifiutate previste rispetto alle etichette accettate previste. Più basso è il valore, maggiore è la disparità.
-
-1: quando non sono previste etichette di rifiuto per il facet d o il sottogruppo e accettazioni previste per il facet a o il sottogruppo.