Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Synthetischer Datensatz
SageMaker Clarify verwendet den Kernel-SHAP-Algorithmus. Anhand eines Datensatzes (auch als Beispiel oder Instanz bezeichnet) und der SHAP-Konfiguration generiert der Explainer zunächst einen synthetischen Datensatz. SageMaker Clarify fragt dann den Modellcontainer nach den Vorhersagen des Datensatzes ab und berechnet dann die Feature-Attributionen und gibt sie zurück. Die Größe des synthetischen Datensatzes wirkt sich auf die Laufzeit des Clarify-Erklärers aus. Größere synthetische Datensätze benötigen mehr Zeit, um Modellvorhersagen zu erhalten als kleinere.
Die Größe des synthetischen Datensatzes wird durch die folgende Formel bestimmt:
Synthetic dataset size = SHAP baseline size * n_samples
Die SHAP-Basisgröße ist die Anzahl der Datensätze in den SHAP-Basisdaten. Diese Informationen stammen aus dem ShapBaselineConfig
.
Die Größe von n_samples
wird durch den Parameter NumberOfSamples
in der Erklärkonfiguration und die Anzahl der Funktionen festgelegt. Wenn die Anzahl der Features n_features
ist, dann ist n_samples
wie folgt:
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
Im Folgenden wird n_samples
gezeigt, wenn NumberOfSamples
nicht vorhanden ist.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Beispielsweise hat ein tabellarischer Datensatz mit 10 Features eine SHAP-Basisliniengröße von 1. Wenn NumberOfSamples
nicht angegeben ist, enthält der synthetische Datensatz 1022 Datensätze. Wenn der Datensatz 20 Features enthält, hat der synthetische Datensatz 2088 Datensätze.
Bei NLP-Problemen entspricht n_features
der Anzahl der Nicht-Text-Features plus der Anzahl der Texteinheiten.
Anmerkung
Die InvokeEndpoint
-API hat ein Zeitlimit für Anfragen. Wenn der synthetische Datensatz zu groß ist, kann der Erklärer die Berechnung möglicherweise nicht innerhalb dieser Grenze abschließen. Verwenden Sie gegebenenfalls die vorherigen Informationen, um die Größe der SHAP-Basislinie und NumberOfSamples
zu verstehen und diese zu reduzieren. Wenn Ihr Modellcontainer für die Verarbeitung von Batch-Anfragen eingerichtet ist, können Sie auch den Wert von MaxRecordCount
anpassen.