Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Synthetischer Datensatz
SageMaker Clarify verwendet den SHAP Kernel-Algorithmus. Anhand eines Datensatzes (auch als Beispiel oder Instanz bezeichnet) und der SHAP Konfiguration generiert der Explainer zunächst einen synthetischen Datensatz. SageMaker Clarify fragt dann den Modellcontainer nach den Vorhersagen des Datensatzes ab und berechnet dann die Feature-Attributionen und gibt sie zurück. Die Größe des synthetischen Datensatzes wirkt sich auf die Laufzeit des Clarify-Erklärers aus. Größere synthetische Datensätze benötigen mehr Zeit, um Modellvorhersagen zu erhalten als kleinere.
Die Größe des synthetischen Datensatzes wird durch die folgende Formel bestimmt:
Synthetic dataset size = SHAP baseline size * n_samples
Die SHAP Basisgröße ist die Anzahl der Datensätze in den SHAP Basisdaten. Diese Informationen stammen aus dem ShapBaselineConfig
.
Die Größe von n_samples
wird durch den Parameter NumberOfSamples
in der Erklärkonfiguration und die Anzahl der Funktionen festgelegt. Wenn die Anzahl der Features n_features
ist, dann ist n_samples
wie folgt:
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
Im Folgenden wird n_samples
gezeigt, wenn NumberOfSamples
nicht vorhanden ist.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Beispielsweise hat ein tabellarischer Datensatz mit 10 Features eine SHAP Basisgröße von 1. Wenn NumberOfSamples
nicht angegeben ist, enthält der synthetische Datensatz 1022 Datensätze. Wenn der Datensatz 20 Features enthält, hat der synthetische Datensatz 2088 Datensätze.
Bei NLP Problemen entspricht n_features
dies der Anzahl der Nicht-Text-Features plus der Anzahl der Texteinheiten.
Anmerkung
Der InvokeEndpoint
API hat ein Zeitlimit für Anfragen. Wenn der synthetische Datensatz zu groß ist, kann der Erklärer die Berechnung möglicherweise nicht innerhalb dieser Grenze abschließen. Verwenden Sie bei Bedarf die vorherigen Informationen, um die SHAP Basisgröße und zu reduzieren und NumberOfSamples
zu verstehen. Wenn Ihr Modellcontainer für die Verarbeitung von Batch-Anfragen eingerichtet ist, können Sie auch den Wert von MaxRecordCount
anpassen.