Daten und Modellverzerrungsmetriken nach dem Training - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten und Modellverzerrungsmetriken nach dem Training

Amazon SageMaker Clarify bietet elf Daten und Modellverzerrungsmetriken nach dem Training, um verschiedene Konzepte von Fairness zu quantifizieren. Diese Konzepte können nicht alle gleichzeitig erfüllt werden, und die Auswahl hängt von den Besonderheiten der Fälle ab, in denen potenzielle Verzerrungen analysiert werden. Bei den meisten dieser Kennzahlen handelt es sich um eine Kombination der Zahlen, die den Konfusionsmatrizen der binären Klassifikation für die verschiedenen demografischen Gruppen entnommen wurden. Da Fairness und Voreingenommenheit durch eine Vielzahl von Kennzahlen definiert werden können, ist menschliches Urteilsvermögen erforderlich, um zu verstehen, welche Kennzahlen für den jeweiligen Anwendungsfall relevant sind, und Kunden sollten sich mit den entsprechenden Interessengruppen beraten, um das angemessene Maß an Fairness für ihre Anwendung festzulegen.

Wir verwenden die folgende Notation, um die Bias-Metriken zu erörtern. Das hier beschriebene konzeptionelle Modell dient der binären Klassifikation, bei der Ereignisse in ihrem Stichprobenraum so gekennzeichnet werden, dass sie nur zwei mögliche Ergebnisse haben, die als positiv (mit dem Wert 1) und negativ (mit dem Wert 0) bezeichnet werden. Dieser Rahmen lässt sich in der Regel auf einfache Weise auf eine Klassifizierung nach mehreren Kategorien oder bei Bedarf auf Fälle mit kontinuierlich bewerteten Ergebnissen ausdehnen. Bei der binären Klassifikation werden Ergebnissen, die in einem Rohdatensatz für eine bevorzugte Facet a und für eine benachteiligte Facet d aufgezeichnet wurden, positive und negative Markierungen zugewiesen. Diese Kennzeichnungen y werden als beobachtete Beschriftungen bezeichnet, um sie von den vorhergesagten Beschriftungen y' zu unterscheiden, die von einem Modell für Machine Learning während der Trainings- oder Inferenzphase des ML-Lebenszyklus zugewiesen werden. Diese Bezeichnungen werden verwendet, um die Wahrscheinlichkeitsverteilungen Pa(y) and Pd(y) für ihre jeweiligen Facetnergebnisse zu definieren.

  • Beschriftungen:

    • y steht für die n beobachteten Beschriftungen für Ereignisergebnisse in einem Trainingsdatensatz.

    • y' steht für die von einem trainierten Modell vorhergesagten Markierungen für die n beobachteten Markierungen im Datensatz.

  • Ergebnisse:

    • Ein positives Ergebnis (mit dem Wert 1) für eine Stichprobe, z. B. eine Annahme eines Antrags.

      • n(1) ist die Anzahl der beobachteten Markierungen für positive Ergebnisse (Zulassungen).

      • n'(1) ist die Anzahl der vorhergesagten Kennzeichnungen für positive Ergebnisse (Akzeptanz).

    • Ein negatives Ergebnis (mit dem Wert 0) für eine Stichprobe, z. B. eine Ablehnung eines Antrags.

      • n(0) ist die Anzahl der beobachteten Markierungen für negative Ergebnisse (Ablehnungen).

      • n'(0) ist die Anzahl der vorhergesagten Markierungen für negative Ergebnisse (Ablehnungen).

  • Facetnwerte:

    • Facet a – Der Merkmalswert, der eine demografische Gruppe definiert, die von Vorurteilen bevorzugt wird.

      • na ist die Anzahl der beobachteten Beschriftungen für den bevorzugten Facetnwert: na = na(1) + na(0) die Summe der positiven und negativen beobachteten Beschriftungen für den Wert Facet a.

      • n' a ist die Anzahl der vorhergesagten Beschriftungen für den bevorzugten Facetnwert: n'a = n'a(1) + n'a(0) ist die Summe der positiven und negativen Kennzeichnungen für das vorhergesagte Ergebnis für den Facetnwert a. Beachten Sie n'a = na.

    • facet d – Der Merkmalswert, der eine demografische Gruppe definiert, die tendenziell benachteiligt ist.

      • nd ist die Anzahl der beobachteten Kennzeichnungen für den Facetnwert mit negativer Wirkung: nd = nd(1) + nd(0) ist die Summe der beobachteten positiven und negativen Kennzeichnungen für den Facetnwert d.

      • n'd ist die Anzahl der vorhergesagten Markierungen für den Wert der negativen Facet: n'd = n'd(1) + n'd(0) die Summe der positiven und negativen vorhergesagten Markierungen für den Facetnwert d. Beachten Sie n'd = nd.

  • Wahrscheinlichkeitsverteilungen für die Ergebnisse der markierten Facetndaten:

    • Pa(y) ist die Wahrscheinlichkeitsverteilung der beobachteten Markierungen für Facet a. Bei binär markierten Daten ergibt sich diese Verteilung aus dem Verhältnis der Anzahl der Stichproben in Facet a mit positiven Ergebnissen zur Gesamtzahl, Pa(y1) = na(1)/ na, und dem Verhältnis der Anzahl der Proben mit negativen Ergebnissen zur Gesamtzahl, Pa(y0) = na(0)/ na.

    • P d(y) ist die Wahrscheinlichkeitsverteilung der beobachteten Markierungen für Facet d. Bei binär markierten Daten ergibt sich diese Verteilung aus der Anzahl der mit positiven Ergebnissen markierten Stichproben in der Facet d zur Gesamtzahl, Pd(y1) = nd(1)/ nd, und dem Verhältnis der Anzahl der Proben mit negativen Ergebnissen zur Gesamtzahl, Pd(y0) = nd(0)/ nd.

Die folgende Tabelle enthält einen Spickzettel zur schnellen Orientierung und Links zu den Messwerten für Verzerrungen nach dem Training.

Kennzahlen zu Verzerrungen nach dem Training

Kennzahl für Verzerrungen nach dem Training Beschreibung Beispiel für eine Frage Interpretieren von metrischen Werten
Unterschied bei den positiven Anteilen bei den vorhergesagten Kennzeichnungen () DPPL Misst den Unterschied im Anteil positiver Prognosen zwischen der bevorzugten Facet a und der ungünstigen Facet d.

Gab es bei den prognostizierten positiven Ergebnissen zwischen den demografischen Gruppen ein Ungleichgewicht, das auf eine Verzerrung hindeuten könnte?

Bereich für normalisierte binäre und mehrkategoriale Facetnbezeichnungen: [-1,+1]

Bereich für fortlaufende Beschriftungen: (-∞, +∞)

Interpretation:

  • Positive Werte weisen darauf hin, dass die bevorzugte Facet a einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist.

  • Werte nahe Null deuten auf einen gleichmäßigeren Anteil der vorhergesagten positiven Ergebnisse zwischen den Facetn hin.

  • Negative Werte deuten darauf hin, dass die benachteiligte Facet d einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist.

Disparate Impact (DI) Misst das Verhältnis der Anteile der vorhergesagten Markierungen für die bevorzugte Facet a und die benachteiligte Facet d. Gab es bei den prognostizierten positiven Ergebnissen zwischen den demografischen Gruppen ein Ungleichgewicht, das auf eine Verzerrung hindeuten könnte?

Bereich für normalisierte binäre Bezeichnungen, Bezeichnungen mit mehrkategorialen Facetn und fortlaufenden Bezeichnungen: [0, ∞)

Interpretation:

  • Werte unter 1 weisen darauf hin, dass die bevorzugte Facet a einen höheren Anteil an vorhergesagten positiven Ergebnissen aufweist.

  • Ein Wert von 1 gibt an, dass wir demografische Parität haben.

  • Werte über 1 weisen darauf hin, dass die benachteiligte Facet d einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist.

Bedingte demografische Disparität bei prognostizierten Bezeichnungen () CDDPL Misst die Disparität der vorhergesagten Kennzeichnungen zwischen den Facetn insgesamt, aber auch nach Untergruppen. Ist bei einigen Bevölkerungsgruppen der Anteil der Ablehnungen von Kreditanträgen höher als der Anteil der Kreditanträge?

Der CDDPL Wertebereich für binäre, mehrkategoriale und kontinuierliche Ergebnisse: [-1, +1]

  • Positive Werte deuten auf Ergebnisse hin, bei denen Facet d mehr abgelehnt als akzeptiert wurde.

  • Nahe Null bedeutet, dass es im Durchschnitt keine demografische Ungleichheit gibt.

  • Negative Werte deuten auf Ergebnisse hin, bei denen Facet a mehr abgelehnt als akzeptiert wurde.

Kontrafaktischer Fliptest (FT) Untersucht jedes Mitglied der Facet d und bewertet, ob ähnliche Mitglieder von Facet a unterschiedliche Modellvorhersagen haben. Entspricht eine Gruppe einer bestimmten Altersgruppe in allen Merkmalen sehr gut einer anderen Altersgruppe, wird aber im Durchschnitt besser bezahlt? Der Bereich für binäre und mehrkategoriale Facetnbezeichnungen [-1, +1] beträgt.
  • Positive Werte liegen vor, wenn die Anzahl der ungünstigen kontrafaktischen Fliptest-Entscheidungen für die benachteiligte Facet d größer ist als die Anzahl der günstigen.

  • Werte nahe Null liegen vor, wenn sich die Anzahl der ungünstigen und der günstigen kontrafaktischen Fliptest-Entscheidungen ausgleicht.

  • Negative Werte liegen vor, wenn die Anzahl der ungünstigen kontrafaktischen Fliptest-Entscheidungen für die benachteiligte Facet d geringer ist als die Anzahl der günstigen.

Genauigkeitsunterschied (AD) Misst den Unterschied zwischen der Vorhersagegenauigkeit für die bevorzugte und die ungünstige Facet. Prognostiziert das Modell Beschriftungen für Anwendungen in allen demografischen Gruppen genauso genau? Der Bereich für binäre und mehrkategoriale Facetnbezeichnungen [-1, +1] beträgt.
  • Positive Werte deuten darauf hin, dass die Facet d stärker unter einer Kombination von falsch positiven Ergebnissen (Fehler vom Typ I) oder falsch negativen Ergebnissen (Fehler vom Typ II) leidet. Dies bedeutet, dass ein potenzieller Bias gegenüber der benachteiligten Facet d vorliegt.

  • Werte nahe Null treten auf, wenn die Vorhersagegenauigkeit für Facet a der für Facet d ähnlich ist.

  • Negative Werte deuten darauf hin, dass Facet a stärker unter einer Kombination von falsch positiven Ergebnissen (Fehler vom Typ I) oder falsch negativen Ergebnissen (Fehler vom Typ II) leidet. Das bedeutet, dass es sich um einen Bias gegenüber der bevorzugten Facet a handelt.

Unterschied zurückrufen (RD) Vergleicht die Erinnerung an das Modell in Bezug auf die bevorzugten und die ungünstigen Facetn. Liegt bei der Kreditvergabe eine altersbedingte Verzerrung vor, die darauf zurückzuführen ist, dass ein Modell für eine Altersgruppe eine höhere Erinnerungsrate aufweist als für eine andere?

Bereich für binäre und mehrkategoriale Klassifikation: [-1, +1].

  • Positive Werte deuten darauf hin, dass das Modell mehr echte positive Ergebnisse für Facet a findet und gegenüber der benachteiligten Facet d voreingenommen ist.

  • Werte nahe Null deuten darauf hin, dass das Modell in beiden Facetn etwa die gleiche Anzahl an echten positiven Ergebnissen findet und nicht verzerrt ist.

  • Negative Werte deuten darauf hin, dass das Modell mehr echte positive Ergebnisse für Facet d findet und gegenüber der bevorzugten Facet a verzerrt ist.

Unterschied bei der bedingten Akzeptanz () DCAcc Vergleicht die beobachteten Markierungen mit den von einem Modell vorhergesagten Markierungen. Prüft, ob dies bei vorhergesagten positiven Ergebnissen (Akzeptanzzahlen) in allen Facetn gleich ist. Werden Kredite beim Vergleich einer Altersgruppe mit einer anderen häufiger oder seltener als prognostiziert (je nach Qualifikation) angenommen?

Der Bereich für binäre, mehrkategoriale Facetnbezeichnungen und fortlaufende Bezeichnungen: (-∞, +∞).

  • Positive Werte deuten auf eine mögliche Voreingenommenheit gegenüber den qualifizierten Bewerbern aufgrund der benachteiligten Facet d hin.

  • Werte nahe Null deuten darauf hin, dass qualifizierte Bewerber aus beiden Facetn auf ähnliche Weise aufgenommen werden.

  • Negative Werte deuten auf eine mögliche Voreingenommenheit gegenüber qualifizierten Bewerbern aus der bevorzugten Facet a hin.

Unterschied in den Akzeptanzraten () DAR Misst den Unterschied zwischen den beobachteten positiven Ergebnissen (TP) und den prognostizierten positiven Ergebnissen (TP + FP) zwischen den bevorzugten und negativen Facetn. Ist das Modell bei der Vorhersage von Kreditannahmen für qualifizierte Antragsteller aller Altersgruppen gleich genau? Der Bereich für binäre, mehrkategoriale Facetnbezeichnungen und fortlaufende Beschriftungen beträgt [-1, +1].
  • Positive Werte deuten auf eine mögliche Abweichung gegenüber der Facet d hin, die durch das Auftreten von relativ mehr falsch positiven Ergebnissen in der benachteiligten Facet d verursacht wird.

  • Werte nahe Null deuten darauf hin, dass die beobachteten Kennzeichnungen für positive Ergebnisse (Akzeptanzwerte) vom Modell für beide Facetn mit gleicher Genauigkeit vorhergesagt werden.

  • Negative Werte deuten auf eine mögliche Verzerrung gegenüber der Facet a hin, die durch das Auftreten von relativ mehr falsch positiven Ergebnissen in der bevorzugten Facet a verursacht wird.

Spezifitätsunterschied (SD) Vergleicht die Spezifität des Modells zwischen bevorzugten und ungünstigen Facetn. Liegt eine altersbedingte Verzerrung bei der Kreditvergabe vor, weil das Modell für eine Altersgruppe eine höhere Spezifität voraussagt als für eine andere?

Bereich für binäre und mehrkategoriale Klassifikation: [-1, +1].

  • Positive Werte deuten darauf hin, dass das Modell weniger falsch positive Ergebnisse für Facet d findet und gegenüber der ungünstigen Facet d voreingenommen ist.

  • Werte nahe Null deuten darauf hin, dass das Modell in beiden Facetn eine ähnliche Anzahl falsch positiver Ergebnisse findet und nicht verzerrt ist.

  • Negative Werte deuten darauf hin, dass das Modell weniger falsch positive Ergebnisse für Facet a findet und gegenüber der bevorzugten Facet a verzerrt ist.

Unterschied in der bedingten Ablehnung () DCR Vergleicht die beobachteten Markierungen mit den von einem Modell vorhergesagten Kennzeichnungen und bewertet, ob diese Werte bei negativen Ergebnissen (Ablehnungen) für alle Facetn gleich sind. Werden Kreditanträge für eine Altersgruppe mehr oder weniger abgelehnt als für eine andere Altersgruppe aufgrund ihrer Qualifikationen prognostiziert? Der Bereich für binäre, mehrkategoriale Facetnbezeichnungen und fortlaufende Bezeichnungen: (-∞, +∞).
  • Positive Werte deuten auf eine mögliche Voreingenommenheit gegenüber den qualifizierten Bewerbern aufgrund der benachteiligten Facet d hin.

  • Werte nahe Null deuten darauf hin, dass qualifizierte Bewerber aus beiden Facetn auf ähnliche Weise abgelehnt werden.

  • Negative Werte deuten auf eine mögliche Voreingenommenheit gegenüber qualifizierten Bewerbern aus der bevorzugten Facet a hin.

Unterschied bei den Ablehnungsraten () DRR Misst den Unterschied im Verhältnis zwischen den beobachteten negativen Ergebnissen (TN) und den vorhergesagten negativen Ergebnissen (TN + FN) zwischen den benachteiligten und den bevorzugten Facetn. Ist das Modell bei der Vorhersage von Kreditablehnungen für unqualifizierte Antragsteller in allen Altersgruppen gleich genau? Der Bereich für binäre, mehrkategoriale Facetnbezeichnungen und fortlaufende Beschriftungen beträgt [-1, +1].
  • Positive Werte deuten auf eine mögliche Verzerrung hin, die durch das Auftreten von relativ mehr falsch negativen Ergebnissen in der bevorzugten Facet a verursacht wird.

  • Werte nahe Null deuten darauf hin, dass negative Ergebnisse (Ablehnungen) für beide Facetn mit gleicher Genauigkeit vorhergesagt werden.

  • Negative Werte deuten auf eine mögliche Verzerrung hin, die durch das Auftreten von relativ mehr falsch negativen Ergebnissen in der benachteiligten Facet d verursacht wird.

Gleichbehandlung (TE) Misst den Unterschied im Verhältnis von falsch positiven zu falsch negativen Ergebnissen zwischen den bevorzugten und negativen Facetn. Ist bei Kreditanträgen das relative Verhältnis von falsch positiven zu falsch negativen Ergebnissen in allen Altersklassen gleich? Der Bereich für binäre und mehrkategoriale Facetnbezeichnungen: (-∞, +∞).
  • Positive Werte liegen vor, wenn das Verhältnis von falsch positiven zu falsch negativen Ergebnissen für Facet a größer ist als das für Facet d.

  • Werte nahe Null liegen vor, wenn das Verhältnis von falsch positiven zu falsch negativen Ergebnissen für Facet a dem für Facet d ähnlich ist.

  • Negative Werte liegen vor, wenn das Verhältnis von falsch positiven zu falsch negativen Ergebnissen für Facet a geringer ist als das für Facet d.

Generalisierte Entropie (GE) Misst die Ungleichheit der b-Vorteile, die jedem Input durch die Modellvorhersagen zugewiesen werden. Führt eines der beiden für die Klassifizierung von Kreditanträgen in Frage kommenden Modelle zu einer ungleichmäßigeren Verteilung der gewünschten Ergebnisse als das andere? Der Bereich für binäre und mehrkategoriale Beschriftungen: (0, 0,5). GE ist undefiniert, wenn das Modell nur falsch negative Werte vorhersagt.
  • Nullwerte liegen vor, wenn alle Vorhersagen richtig oder alle Vorhersagen falsch positiv sind.

  • Positive Werte deuten auf eine Ungleichheit der Leistungen hin; 0,5 entspricht der größten Ungleichheit.

Weitere Informationen zu Messgrößen für Verzerrungen nach dem Training finden Sie unter Eine Familie von Fairness-Maßnahmen für Machine Learning im Finanzwesen.