SHAPGrundlinien für die Erklärbarkeit - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SHAPGrundlinien für die Erklärbarkeit

Die Erklärungen sind in der Regel kontrastiv (d. h. sie berücksichtigen Abweichungen von einer Ausgangsbasis). Daher können Sie für dieselbe Modellvorhersage davon ausgehen, dass Sie unterschiedliche Erklärungen in Bezug auf unterschiedliche Ausgangswerte erhalten. Daher ist die Wahl einer Basislinie von entscheidender Bedeutung. In einem ML-Kontext entspricht die Baseline einer hypothetischen Instance, die entweder nicht informativ oder informativ sein kann. Während der Berechnung von Shapley-Werten generiert SageMaker Clarify mehrere neue Instanzen zwischen der Basislinie und der angegebenen Instanz, in denen das Fehlen eines Features modelliert wird, indem der Merkmalswert auf den Wert der Basislinie gesetzt wird, und das Vorhandensein eines Merkmals wird modelliert, indem der Merkmalswert auf den Wert der jeweiligen Instanz gesetzt wird. Somit entspricht das Fehlen aller Features der Basislinie und das Vorhandensein aller Features entspricht der gegebenen Instance.

Wie kann man gute Baselines wählen? Oft ist es wünschenswert, eine Ausgangsbasis mit sehr geringem Informationsgehalt zu wählen. Sie können beispielsweise aus dem Trainingsdatensatz eine Durchschnitts-Instance erstellen, indem Sie entweder den Median oder den Durchschnitt für numerische Merkmale und den Modus für kategoriale Merkmale verwenden. Für das Beispiel mit den Hochschulzulassungen könnte es für Sie von Interesse sein, zu erklären, warum ein bestimmter Bewerber zugelassen wurde, im Vergleich zu den Basiszulassungen, die auf einem durchschnittlichen Bewerber basieren. Falls nicht angegeben, wird eine Basislinie automatisch von SageMaker Clarify unter Verwendung von K-Means oder K-Prototypen im Eingabedatensatz berechnet.

Alternativ können Sie Erklärungen zu informativen Basislinien erstellen. Für das Zulassungsszenario an Hochschulen möchten Sie vielleicht erläutern, warum ein bestimmter Bewerber im Vergleich zu anderen Bewerbern mit ähnlichem demografischem Hintergrund abgelehnt wurde. In diesem Fall können Sie eine Ausgangsbasis wählen, die die Bewerber repräsentiert, die für Sie von Interesse sind, d. h. Bewerber mit einem ähnlichen demografischen Hintergrund. Auf diese Weise können Sie aussagekräftige Basiswerte verwenden, um die Analyse auf die spezifischen Aspekte einer bestimmten Modellvorhersage zu konzentrieren. Sie können die Merkmale für die Bewertung isolieren, indem Sie demografische Merkmale und andere Merkmale, auf die Sie nicht reagieren können, auf denselben Wert wie in der jeweiligen Instance festlegen.