Synthetischer Datensatz

SageMaker Clarify verwendet den Kernel-SHAP-Algorithmus. Anhand eines Datensatzes (auch als Beispiel oder Instanz bezeichnet) und der SHAP-Konfiguration generiert der Explainer zunächst einen synthetischen Datensatz. SageMaker Clarify fragt dann den Modellcontainer nach den Vorhersagen des Datensatzes ab und berechnet dann die Feature-Attributionen und gibt sie zurück. Die Größe des synthetischen Datensatzes wirkt sich auf die Laufzeit des Clarify-Erklärers aus. Größere synthetische Datensätze benötigen mehr Zeit, um Modellvorhersagen zu erhalten als kleinere.

Die Größe des synthetischen Datensatzes wird durch die folgende Formel bestimmt:


Synthetic dataset size = SHAP baseline size * n_samples

Die SHAP-Basisgröße ist die Anzahl der Datensätze in den SHAP-Basisdaten. Diese Informationen stammen aus dem ShapBaselineConfig.

Die Größe von n_samples wird durch den Parameter NumberOfSamples in der Erklärkonfiguration und die Anzahl der Funktionen festgelegt. Wenn die Anzahl der Features n_features ist, dann ist n_samples wie folgt:


n_samples = MIN(NumberOfSamples, 2^n_features - 2)

Im Folgenden wird n_samples gezeigt, wenn NumberOfSamples nicht vorhanden ist.


n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

Beispielsweise hat ein tabellarischer Datensatz mit 10 Features eine SHAP-Basisliniengröße von 1. Wenn NumberOfSamples nicht angegeben ist, enthält der synthetische Datensatz 1022 Datensätze. Wenn der Datensatz 20 Features enthält, hat der synthetische Datensatz 2088 Datensätze.

Bei NLP-Problemen entspricht n_features der Anzahl der Nicht-Text-Features plus der Anzahl der Texteinheiten.

Anmerkung

Die InvokeEndpoint-API hat ein Zeitlimit für Anfragen. Wenn der synthetische Datensatz zu groß ist, kann der Erklärer die Berechnung möglicherweise nicht innerhalb dieser Grenze abschließen. Verwenden Sie gegebenenfalls die vorherigen Informationen, um die Größe der SHAP-Basislinie und NumberOfSamples zu verstehen und diese zu reduzieren. Wenn Ihr Modellcontainer für die Verarbeitung von Batch-Anfragen eingerichtet ist, können Sie auch den Wert von MaxRecordCount anpassen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Der Ausdruck EnableExplanations

Rufen Sie den Endpunkt auf