Unterschied bei den positiven Anteilen bei den vorhergesagten Kennzeichnungen () DPPL - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterschied bei den positiven Anteilen bei den vorhergesagten Kennzeichnungen () DPPL

Der Unterschied zwischen den positiven Anteilen in der Metrik für vorhergesagte Labels (DPPL) bestimmt, ob das Modell die Ergebnisse für jede Facette unterschiedlich vorhersagt. Sie ist definiert als die Differenz zwischen dem Anteil positiver Vorhersagen (y' = 1) für Facet a und dem Anteil positiver Vorhersagen (y' = 1) für Facet d. Wenn die Modellprognosen beispielsweise Kredite für 60% einer Gruppe mittleren Alters (Facet a) und 50% für andere Altersgruppen (Facet d) gewähren, könnte dies gegenüber Facet d voreingenommen sein. In diesem Beispiel müssen Sie ermitteln, ob der Unterschied von 10% wesentlich für eine Verzerrung ist.

Durch einen Vergleich der Unterschiede in den Proportionen von Labels (DPL), einem Maß für den Bias vor dem TrainingDPPL, mit einem Maß für den Bias nach dem Training wird bewertet, ob sich die anfänglich im Datensatz vorhandene Verzerrung in positiven Proportionen nach dem Training ändert. Wenn DPPL der Wert größer als istDPL, nahm die positive Verzerrung nach dem Training zu. Wenn kleiner als DPPL istDPL, erhöhte das Modell die Verzerrung im positiven Verhältnis nach dem Training nicht. Ein DPL Vergleich mit garantiert DPPL nicht, dass das Modell die Verzerrung in allen Dimensionen reduziert. Beispielsweise kann das Modell immer noch verzerrt sein, wenn andere Kennzahlen wie Kontrafaktischer Fliptest (FT) oder Genauigkeitsunterschied (AD) berücksichtigt werden. Weitere Informationen zur Erkennung von Verzerrungen finden Sie im Blogbeitrag Erfahren Sie, wie Amazon SageMaker Clarify bei der Erkennung von Verzerrungen hilft. Unterschied in den Proportionen der Etiketten () DPLWeitere Informationen zu finden Sie unterDPL.

Die Formel für die DPPL lautet:

        DPPL= q' a - q' d

Wobei gilt:

  • q'a = n'a(1)/na ist der vorhergesagte Anteil der Facet a, die ein positives Ergebnis mit dem Wert 1 erzielen. In unserem Beispiel ist dies der Anteil der Personen mittleren Alters, für die prognostiziert wurde, dass ihnen ein Kredit gewährt wird. Hier steht n'a(1) für die Anzahl der Mitglieder der Facet a, die ein positives vorhergesagtes Ergebnis mit dem Wert 1 erzielen, und n a für die Anzahl der Mitglieder der Facet a.

  • q'd = n'd(1)/nd ist der vorhergesagte Anteil der Facet d, die ein positives Ergebnis mit dem Wert 1 erzielen. In unserem Beispiel wurde für eine Facet älterer und jüngerer Menschen prognostiziert, dass ihnen ein Kredit gewährt wird. Hier steht n' d (1) für die Anzahl der Mitglieder der Facet d, die ein positives prognostiziertes Ergebnis erzielen, und n für d die Anzahl der Mitglieder der Facet d.

Wenn es nahe genug an 0 DPPL liegt, bedeutet dies, dass die demografische Parität nach der Ausbildung erreicht wurde.

Bei binären und mehrkategorialen Facettenbezeichnungen bewegen sich die normalisierten DPL Werte über das Intervall [-1, 1]. Bei kontinuierlichen Beschriftungen variieren die Werte über das Intervall (-∞, +∞).

  • Positive DPPL Werte weisen darauf hin, dass Facette a im Vergleich zu Facette d einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist.

    Dies wird als positive Verzerrung bezeichnet.

  • Werte DPPL nahe Null deuten auf einen gleichmäßigeren Anteil der vorhergesagten positiven Ergebnisse zwischen den Facetten a und d hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin.

  • Negative DPPL Werte deuten darauf hin, dass die Facette d im Vergleich zu Facette a einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist. Dies wird als negativer Bias bezeichnet.