Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Algorithmische Voreingenommenheit, Diskriminierung, Fairness und verwandte Themen wurden in verschiedenen Disziplinen wie Recht, Politik und Informatik untersucht. Ein Computersystem kann als voreingenommen angesehen werden, wenn es bestimmte Personen oder Personengruppen diskriminiert. Die Modelle des Machine Learnings, die diesen Anwendungen zugrunde liegen, lernen aus Daten, und diese Daten könnten Disparitäten oder andere inhärente Verzerrungen widerspiegeln. Beispielsweise sind das Trainingsdaten möglicherweise nicht ausreichend für verschiedene demografische Gruppen repräsentativ oder enthalten verzerrte Bezeichnungen. Die Modelle des Machine Learnings, die mit Datensätzen trainiert wurden, die diese Verzerrungen aufweisen, könnten sie am Ende lernen und diese Verzerrungen dann in ihren Vorhersagen reproduzieren oder sogar verschärfen. Der Bereich des Machine Learnings bietet die Möglichkeit, Verzerrungen zu beheben, indem sie in jeder Phase des ML-Lebenszyklus erkannt und gemessen werden. Sie können Amazon SageMaker Clarify verwenden, um festzustellen, ob Daten, die für Trainingsmodelle verwendet werden, Verzerrungen kodieren.
Verzerrungen können vor dem Training und nach dem Training gemessen und nach der Bereitstellung von Modellen an Endpunkten zur Ableitung anhand von Ausgangswerten überwacht werden. Bias-Metriken vor dem Training dienen dazu, Verzerrungen in den Rohdaten zu erkennen und zu messen, bevor sie zum Trainieren eines Modells verwendet werden. Die verwendeten Metriken sind modellunabhängig, da sie nicht von Modellergebnissen abhängen. Es gibt jedoch unterschiedliche Fairness-Konzepte, die unterschiedliche Messgrößen der Voreingenommenheit erfordern. Amazon SageMaker Clarify bietet Bias-Metriken zur Quantifizierung verschiedener Fairness-Kriterien.
Weitere Informationen zu Bias-Metriken finden Sie unter Erfahren Sie, wie Amazon SageMaker Clarify hilft, Bias- und Fairnessmaßnahmen für Machine Learning im Finanzwesen
Amazon SageMaker klärt die Bedingungen für Voreingenommenheit und Fairness
SageMaker Clarify verwendet die folgende Terminologie, um Vorurteile und Fairness zu erörtern.
- Funktion
-
Eine einzelne messbare Eigenschaft oder ein Feature eines beobachteten Phänomens, das in einer Spalte für tabellarische Daten enthalten ist.
- Label (Bezeichnung)
-
Funktion, die das Ziel für das Training eines Machine-Learning-Modells ist. Wird als beobachtete Beschriftung oder beobachtetes Ergebnis bezeichnet.
- Voraussichtliche Beschriftung
-
Die vom Modell vorhergesagte Bezeichnung. Wird auch als vorhergesagtes Ergebnis bezeichnet.
- Beispiel
-
Eine beobachtete Entität, die durch Featureswerte und Beschriftungswert beschrieben wird und in einer Zeile für Tabellendaten enthalten ist.
- Datensatz
-
Eine Sammlung von Proben.
- Bias
-
Ein Ungleichgewicht der Trainingsdaten oder des Prognoseverhaltens des Modells in Bezug auf verschiedene Gruppen, z. B. Alter oder Einkommensgruppe. Verzerrungen können auf die Daten oder den Algorithmus zurückzuführen sein, die zum Trainieren Ihres Modells verwendet wurden. Wenn ein ML-Modell beispielsweise hauptsächlich auf Daten von Personen mittleren Alters trainiert wird, ist es möglicherweise weniger genau, wenn Vorhersagen getroffen werden, an denen jüngere und ältere Menschen beteiligt sind.
- Bias-Metrik
-
Eine Funktion, die numerische Werte zurückgibt, die den Grad einer potenziellen Verzerrung angeben.
- Bericht über Verzerrungen
-
Eine Sammlung von Bias-Metriken für einen bestimmten Datensatz oder eine Kombination aus einem Datensatz und einem Modell.
- Positive Beschriftungswerte
-
Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe günstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als positiv.
- Negative Beschriftungswerte
-
Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe ungünstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als negativ.
- Gruppenvariable
-
Kategorische Spalte des Datensatzes, der zur Bildung von Untergruppen für die Messung der bedingten demografischen Disparität (CDD) verwendet wird. Nur für diese Metrik im Hinblick auf das Simpson-Paradoxon erforderlich.
- Facet
-
Eine Spalte oder ein Feature, das die Attribute enthält, anhand derer die systematische Abweichung gemessen wird.
- Facettenwert
-
Die Featureswerte von Attributen, die aufgrund von Verzerrungen bevorzugt oder negativ bewertet werden können.
- Prognostizierte Wahrscheinlichkeit
-
Die vom Modell vorhergesagte Wahrscheinlichkeit, dass eine Stichprobe zu einem positiven oder negativen Ergebnis führt.
Beispiel-Notebooks
Amazon SageMaker Clarify bietet das folgende Muster-Notizbuch zur Erkennung von Verzerrungen an:
-
Erklärbarkeit und Erkennung von Verzerrungen mit Amazon SageMaker Clarify
— Verwenden Sie SageMaker Clarify, um einen Verarbeitungsjob zur Erkennung von Verzerrungen und zur Erklärung von Modellvorhersagen mit Feature-Attributionen zu erstellen.
Es wurde verifiziert, dass dieses Notizbuch nur in Amazon SageMaker Studio ausgeführt werden kann. Anweisungen zum Öffnen eines Notizbuchs in Amazon SageMaker Studio finden Sie unterErstellen oder öffnen Sie ein Amazon SageMaker Studio Classic-Notizbuch. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science).