Synthetischer Datensatz - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Synthetischer Datensatz

SageMaker Clarify verwendet den SHAP Kernel-Algorithmus. Anhand eines Datensatzes (auch als Beispiel oder Instanz bezeichnet) und der SHAP Konfiguration generiert der Explainer zunächst einen synthetischen Datensatz. SageMaker Clarify fragt dann den Modellcontainer nach den Vorhersagen des Datensatzes ab und berechnet dann die Feature-Attributionen und gibt sie zurück. Die Größe des synthetischen Datensatzes wirkt sich auf die Laufzeit des Clarify-Erklärers aus. Größere synthetische Datensätze benötigen mehr Zeit, um Modellvorhersagen zu erhalten als kleinere.

Die Größe des synthetischen Datensatzes wird durch die folgende Formel bestimmt:

Synthetic dataset size = SHAP baseline size * n_samples

Die SHAP Basisgröße ist die Anzahl der Datensätze in den SHAP Basisdaten. Diese Informationen stammen aus dem ShapBaselineConfig.

Die Größe von n_samples wird durch den Parameter NumberOfSamples in der Erklärkonfiguration und die Anzahl der Funktionen festgelegt. Wenn die Anzahl der Features n_features ist, dann ist n_samples wie folgt:

n_samples = MIN(NumberOfSamples, 2^n_features - 2)

Im Folgenden wird n_samples gezeigt, wenn NumberOfSamples nicht vorhanden ist.

n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)

Beispielsweise hat ein tabellarischer Datensatz mit 10 Features eine SHAP Basisgröße von 1. Wenn NumberOfSamples nicht angegeben ist, enthält der synthetische Datensatz 1022 Datensätze. Wenn der Datensatz 20 Features enthält, hat der synthetische Datensatz 2088 Datensätze.

Bei NLP Problemen entspricht n_features dies der Anzahl der Nicht-Text-Features plus der Anzahl der Texteinheiten.

Anmerkung

Der InvokeEndpoint API hat ein Zeitlimit für Anfragen. Wenn der synthetische Datensatz zu groß ist, kann der Erklärer die Berechnung möglicherweise nicht innerhalb dieser Grenze abschließen. Verwenden Sie bei Bedarf die vorherigen Informationen, um die SHAP Basisgröße und zu reduzieren und NumberOfSamples zu verstehen. Wenn Ihr Modellcontainer für die Verarbeitung von Batch-Anfragen eingerichtet ist, können Sie auch den Wert von MaxRecordCount anpassen.