Feature-Attributionen, die Shapley-Werte verwenden - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Feature-Attributionen, die Shapley-Werte verwenden

SageMaker Clarify stellt Funktionszuweisungen bereit, die auf dem Konzept des Shapley-Werts basieren. Sie können Shapley-Werte verwenden, um den Beitrag zu ermitteln, den jedes Merkmal zu Modellvorhersagen geleistet hat. Diese Zuschreibungen können für spezifische Vorhersagen und auf globaler Ebene für das gesamte Modell bereitgestellt werden. Wenn Sie beispielsweise ein ML-Modell für Hochschulzulassungen verwenden, können Sie anhand der Erläuterungen ermitteln, ob das GPA oder das SAT Ergebnis das Merkmal war, das am stärksten für die Vorhersagen des Modells verantwortlich war. Anschließend können Sie feststellen, wie verantwortlich jedes Merkmal für die Entscheidung über die Zulassung eines bestimmten Studenten war.

SageMaker Clarify hat das Konzept der Shapley-Werte aus der Spieltheorie übernommen und es in einem maschinellen Lernkontext eingesetzt. Der Shapley-Wert bietet eine Möglichkeit, den Beitrag jedes Spielers zu einem Spiel zu quantifizieren und somit die Möglichkeit, den durch ein Spiel generierten Gesamtgewinn auf der Grundlage ihrer Beiträge an die Spieler zu verteilen. In diesem Kontext des maschinellen Lernens behandelt SageMaker Clarify die Vorhersage des Modells auf einer bestimmten Instanz als das Spiel und die im Modell enthaltenen Funktionen als die Spieler. In einer ersten Annäherung könnte man versucht sein, den marginalen Beitrag oder Effekt jedes Merkmals zu bestimmen, indem man das Ergebnis des Entfernens dieses Merkmals aus dem Modell oder des Entfernens aller anderen Merkmale aus dem Modell quantifiziert. Bei diesem Ansatz wird jedoch nicht berücksichtigt, dass die in einem Modell enthaltenen Merkmale häufig nicht unabhängig voneinander sind. Wenn beispielsweise zwei Merkmale stark korreliert sind, kann es sein, dass die Modellvorhersage nicht wesentlich verändert wird, wenn eines der Merkmale weggelassen wird.

Um diesen potenziellen Abhängigkeiten Rechnung zu tragen, erfordert der Shapley-Wert, dass das Ergebnis jeder möglichen Kombination (oder Koalition) von Merkmalen berücksichtigt werden muss, um die Bedeutung der einzelnen Merkmale zu bestimmen. Bei gegebenen d Merkmalen gibt es 2 d solcher möglichen Merkmalskombinationen, von denen jede einem potenziellen Modell entspricht. Um die Zuordnung für ein bestimmtes Merkmal f zu bestimmen, berücksichtigen Sie den marginalen Beitrag, den die Einbeziehung von f in alle Merkmalskombinationen (und zugehörigen Modelle), die f nicht enthalten, mit einbezieht, und nehmen Sie den Durchschnitt. Es kann gezeigt werden, dass der Shapley-Wert die einzigartige Methode ist, den Beitrag oder die Wichtigkeit jedes Merkmals zuzuweisen, das bestimmte wünschenswerte Eigenschaften erfüllt. Insbesondere entspricht die Summe der Shapley-Werte jedes Merkmals der Differenz zwischen den Vorhersagen des Modells und einem Scheinmodell ohne Merkmale. Aber selbst für vernünftige Werte von d, sagen wir 50 Merkmale, ist es rechnerisch unerschwinglich und nicht praktikabel, mögliche 2d-Modelle zu trainieren. Aus diesem Grund muss SageMaker Clarify verschiedene Näherungstechniken verwenden. Zu diesem Zweck verwendet SageMaker Clarify Shapley Additive exPlanations (SHAP), das solche Näherungen berücksichtigt und durch zusätzliche Optimierungen eine skalierbare und effiziente Implementierung des SHAP Kernel-Algorithmus entwickelt hat.

Weitere Informationen zu Shapley-Werten finden Sie unter Ein einheitlicher Ansatz zur Interpretation von Modellvorhersagen.