Unterschied in der bedingten Ablehnung () DCR - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterschied in der bedingten Ablehnung () DCR

Diese Kennzahl vergleicht die beobachteten Kennzeichnungen mit den vom Modell vorhergesagten Kennzeichnungen und bewertet, ob dies bei negativen Ergebnissen (Ablehnungen) in allen Facetn gleich ist. Diese Metrik ahmt menschliche Voreingenommenheit insofern sehr nach, als sie quantifiziert, wie viele negative Ergebnisse ein Modell für eine bestimmte Facet mehr negative Ergebnisse erzielt hat (vorhergesagte Kennzeichnungen y') als das, was die Beschriftungen im Trainingsdatensatz nahelegen (beobachtete Markierungen y). Wenn beispielsweise mehr Ablehnungen (negatives Ergebnis) bei Kreditanträgen für eine Gruppe mittleren Alters (Facet a) beobachtet wurden als von dem auf Qualifikationen basierenden Modell vorhergesagt als bei der Facet, die andere Altersgruppen umfasst (Facet d), könnte dies auf eine mögliche Verzerrung bei der Ablehnung von Krediten hindeuten, die die Gruppe mittleren Alters gegenüber anderen Gruppen begünstigen.

Die Formel für den Unterschied in der bedingten Akzeptanz lautet wie folgt:

        DCR= r d — r a

Wobei gilt:

  • rd = nd(0)/ n'd(0) ist das Verhältnis der beobachteten Anzahl negativer Ergebnisse mit dem Wert 0 (Ablehnungen) der Facet d zur prognostizierten Anzahl negativer Ergebnisse (Ablehnungen) für Facet d.

  • ra = na(0)/ n'a(0) ist das Verhältnis der beobachteten Anzahl negativer Ergebnisse mit Wert 0 (Ablehnungen) von Facet a zur prognostizierten Anzahl negativer Ergebnisse mit Wert 0 (Ablehnungen) für Facet a.

Die DCR Kennzahl kann sowohl positive als auch negative Verzerrungen erfassen, die auf eine bevorzugte Behandlung aufgrund von Qualifikationen schließen lassen. Betrachten Sie die folgenden Fälle von altersbedingter Voreingenommenheit bei Kreditablehnungen.

Beispiel 1: Positive Voreingenommenheit

Nehmen wir an, wir haben einen Datensatz mit 100 Personen mittleren Alters (Facet a) und 50 Personen aus anderen Altersgruppen (Facet d), die Kredite beantragt haben, wobei das Modell empfahl, 60 Personen aus Facet a und 30 aus Facet d zurückzuweisen. Die prognostizierten Anteile sind also unabhängig von der DPPL Metrik, aber die beobachteten Kennzeichnungen zeigen, dass 50 von Facette a und 40 von Facette d abgelehnt wurden. Mit anderen Worten, das Modell lehnte 17% mehr Kredite im mittleren Alter ab, als die beobachteten Angaben in den Trainingsdaten vermuten ließen (50/60 = 0,83), und es wurden 33% weniger Kredite aus anderen Altersgruppen abgelehnt, als die beobachteten Kennzeichnungen vermuten ließen (40/30 = 1,33). Der DCR Wert quantifiziert diesen Unterschied im Verhältnis zwischen den beobachteten und den vorhergesagten Ablehnungsraten zwischen den Facetten. Der positive Wert weist darauf hin, dass eine potenzielle Verzerrung zugunsten der Gruppe mittleren Alters mit niedrigeren Ablehnungsraten im Vergleich zu anderen Gruppen besteht, als es die beobachteten Daten (als unvoreingenommen betrachtet) vermuten lassen.

        DCR= 40/30 — 50/60 = 1/2

Beispiel 2: Negativer Bias

Nehmen wir an, wir haben einen Datensatz mit 100 Personen mittleren Alters (Facet a) und 50 Personen aus anderen Altersgruppen (Facet d), die Kredite beantragt haben, wobei das Modell empfahl, 60 Personen aus Facet a und 30 aus Facet d zurückzuweisen. Die vorhergesagten Proportionen sind also unabhängig von der DPPL Metrik, aber die beobachteten Kennzeichnungen zeigen, dass 70 von Facette a und 20 von Facette d abgelehnt wurden. Mit anderen Worten, das Modell lehnte 17% weniger Kredite aus dem mittleren Alter ab, als die beobachteten Angaben in den Trainingsdaten vermuten ließen (70/60 = 1,17), und es wurden 33% mehr Kredite aus anderen Altersgruppen abgelehnt, als die beobachteten Kennzeichnungen vermuten ließen (20/30 = 0,67). Der negative Wert weist darauf hin, dass ein potenzieller Bias zugunsten der Facet a mit niedrigeren Ablehnungsraten im Vergleich zur Facet a mittleren Alters vorliegt, als es die beobachteten Daten (als unvoreingenommen betrachtet) vermuten lassen.

        DCR= 20/30 - 70/60 = -1/2

Der Wertebereich für Unterschiede bei der bedingten Ablehnung bei binären, mehrkategorialen Facetnbeschriftungen und kontinuierlichen Beschriftungen ist (-∞, +∞).

  • Positive Werte liegen vor, wenn das Verhältnis der beobachteten Anzahl von Zurückweisungen zu den vorhergesagten Ablehnungen für Facet d größer ist als das Verhältnis für Facet a. Diese Werte deuten auf eine mögliche Voreingenommenheit gegenüber den qualifizierten Bewerbern aus Facet a hin. Je größer der Wert der DCR Metrik ist, desto extremer ist die scheinbare Verzerrung.

  • Werte nahe Null liegen vor, wenn das Verhältnis der beobachteten Anzahl von Ablehnungen zu den prognostizierten Akzeptanzzahlen für Facet a dem Verhältnis für Facet d entspricht. Diese Werte deuten darauf hin, dass die prognostizierten Ablehnungsraten mit den beobachteten Werten in den gekennzeichneten Daten übereinstimmen und dass qualifizierte Bewerber aus beiden Facetn auf ähnliche Weise abgelehnt werden.

  • Negative Werte liegen vor, wenn das Verhältnis der beobachteten Anzahl von Ablehnungen zu den prognostizierten Ablehnungen für Facet d geringer ist als das Verhältnis Facet a. Diese Werte deuten auf eine mögliche Voreingenommenheit gegenüber den qualifizierten Bewerbern aus Facet d hin. Je größer die negative DCR Metrik ist, desto extremer ist die scheinbare Verzerrung.