Unterschied in den Proportionen der Etiketten () DPL - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterschied in den Proportionen der Etiketten () DPL

Der Unterschied in den Anteilen der Kennzeichnungen (DPL) vergleicht den Anteil der beobachteten Ergebnisse mit positiven Markierungen für Facette d mit dem Anteil der beobachteten Ergebnisse mit positiven Markierungen für Facette a in einem Trainingsdatensatz. Sie könnten es beispielsweise verwenden, um den Anteil von Personen mittleren Alters (Facette a) und anderen Altersgruppen (Facette d) zu vergleichen, denen Finanzkredite gewährt wurden. Modelle für Machine Learning versuchen, die Entscheidungen im Zusammenhang mit Trainingsdaten so genau wie möglich nachzuahmen. Ein Modell für maschinelles Lernen, das auf einem Datensatz mit einem hohen Wert trainiert wurde, DPL wird also wahrscheinlich dasselbe Ungleichgewicht in seinen future Prognosen widerspiegeln.

Die Formel für den Unterschied in den Proportionen der Beschriftungen lautet wie folgt:

        DPL= (q a - qd)

Wobei gilt:

  • qa = na(1)/na ist der Anteil der Facette a, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Bevölkerungsgruppe mittleren Alters, denen Kredite genehmigt werden. Dabei steht na(1) für die Anzahl der Mitglieder der Facette a, die ein positives Ergebnis erzielen und na für die Anzahl der Mitglieder der Facette a.

  • qd = nd(1)/nd ist der Anteil der Facette d, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Personen außerhalb der Bevölkerungsgruppe mittleren Alters, denen Kredite gewährt werden. Dabei steht nd(1) für die Anzahl der Mitglieder der Facette d, die ein positives Ergebnis erzielen, und nd für die Anzahl der Mitglieder der Facette d.

Wenn DPL es nahe genug an 0 liegt, dann sagen wir, dass die demografische Parität erreicht wurde.

Bei binären und mehrkategorialen Facettenbeschriftungen bewegen sich die DPL Werte über das Intervall (-1, 1). Für kontinuierliche Beschriftungen legen wir einen Schwellenwert fest, um die Beschriftungen auf binäre Werte zu reduzieren.

  • Positive DPL Werte weisen darauf hin, dass Facette a ist im Vergleich zu Facette d einen höheren Anteil an positiven Ergebnissen aufweist.

  • Werte DPL nahe Null deuten auf einen gleichmäßigeren Anteil positiver Ergebnisse zwischen den Facetten hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin.

  • Negative DPL Werte weisen darauf hin, dass Facette d im Vergleich zu Facette a einen höheren Anteil an positiven Ergebnissen aufweist.

Ob ein hohes Ausmaß von problematisch DPL ist oder nicht, ist von Situation zu Situation unterschiedlich. In einem problematischen Fall DPL könnte eine hohe Größenordnung ein Hinweis auf grundlegende Probleme in den Daten sein. Ein Datensatz mit einem hohen Wert DPL könnte beispielsweise historische Vorurteile oder Vorurteile gegenüber altersbedingten demografischen Gruppen widerspiegeln, die für ein Modell nicht erwünscht wären.