Unterschied in den Proportionen der Beschriftungen (DPL)

Der Unterschied in den Beschriftungsanteilen (DPL) vergleicht den Anteil der beobachteten Ergebnisse mit positiven Kennzeichnungen für Facette d mit dem Anteil der beobachteten Ergebnisse mit positiven Kennzeichnungen für Facette in a Trainingsdatensatz. Sie könnten es beispielsweise verwenden, um den Anteil von Personen mittleren Alters (Facette a) und anderen Altersgruppen (Facette d) zu vergleichen, denen Finanzkredite gewährt wurden. Modelle für Machine Learning versuchen, die Entscheidungen im Zusammenhang mit Trainingsdaten so genau wie möglich nachzuahmen. Ein Modell für Machine Learning, das auf einem Datensatz mit einem hohen DPL trainiert wurde, wird also wahrscheinlich dasselbe Ungleichgewicht in seinen future Prognosen widerspiegeln.

Die Formel für den Unterschied in den Proportionen der Beschriftungen lautet wie folgt:

DPL = (q_a – q_d)

Wobei gilt:

q_a = n_a⁽¹⁾/n_a ist der Anteil der Facette a, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Bevölkerungsgruppe mittleren Alters, denen Kredite genehmigt werden. Dabei steht n_a⁽¹⁾ für die Anzahl der Mitglieder der Facette a, die ein positives Ergebnis erzielen und n_a für die Anzahl der Mitglieder der Facette a.
q_d = n_d⁽¹⁾/n_d ist der Anteil der Facette d, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Personen außerhalb der Bevölkerungsgruppe mittleren Alters, denen Kredite gewährt werden. Dabei steht n_d⁽¹⁾ für die Anzahl der Mitglieder der Facette d, die ein positives Ergebnis erzielen, und n_d für die Anzahl der Mitglieder der Facette d.

Wenn DPL nahe genug an 0 liegt, dann sagen wir, dass die demografische Parität erreicht wurde.

Bei binären und mehrkategorialen Facettenbeschriftungen bewegen sich die DPL-Werte über das Intervall (-1, 1). Für fortlaufende Beschriftungen legen wir einen Schwellenwert fest, um die Beschriftungen auf binäre Werte zu reduzieren.

Positive DPL-Werte weisen darauf hin, dass Facette a ist im Vergleich zu Facette d einen höheren Anteil an positiven Ergebnissen aufweist.
Werte von DPL nahe Null deuten auf einen gleichmäßigeren Anteil positiver Ergebnisse zwischen den Facetten hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin.
Negative DPL-Werte deuten darauf hin, dass Facette d im Vergleich zu Facette a einen höheren Anteil an positiven Ergebnissen aufweist.

Ob ein hohes Ausmaß an DPL problematisch ist oder nicht, ist von Situation zu Situation unterschiedlich. In einem problematischen Fall könnte eine hohe DPL ein Hinweis auf zugrundeliegende Probleme in den Daten sein. Ein Datensatz mit einem hohen DPL könnte beispielsweise historische Vorurteile oder Vorurteile gegenüber altersbedingten demografischen Gruppen widerspiegeln, die für ein Modell nicht erwünscht wären, zu lernen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ungleichgewicht zwischen den Klassen (CI)

Kullback-Leibler-Divergenz (KL)