Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Basisberechnung, Drifterkennung und Lebenszyklus mit ClarifyCheck und QualityCheck Schritte in Amazon SageMaker Pipelines
Im folgenden Thema wird erläutert, wie sich Baselines und Modellversionen in den SageMaker Amazon-Pipelines entwickeln, wenn die Schritte und verwendet werden. ClarifyCheck QualityCheck
Für diesen ClarifyCheck
Schritt ist eine Baseline eine einzelne Datei, die sich in den Schritteigenschaften mit dem Suffix constraints
befindet. Für den QualityCheck
Schritt ist eine Baseline eine Kombination aus zwei Dateien, die sich in den Schritteigenschaften befinden: eine mit dem Suffix statistics
und die andere mit dem Suffix constraints
. In den folgenden Themen behandeln wir diese Eigenschaften mit einem Präfix, das beschreibt, wie sie verwendet werden, was sich auf das Basisverhalten und den Lebenszyklus in diesen beiden Pipeline-Schritten auswirkt. Beispielsweise berechnet der ClarifyCheck
Schritt immer die neuen Basislinien in der CalculatedBaselineConstraints
Eigenschaft und weist sie zu, und der QualityCheck
Schritt macht dasselbe in den Eigenschaften CalculatedBaselineConstraints
und CalculatedBaselineStatistics
.
Basisberechnung und Registrierung für und Schritte ClarifyCheck QualityCheck
Sowohl in den ClarifyCheck
Schritten als auch in den QualityCheck
Schritten werden immer neue Basislinien auf der Grundlage von Schritteingaben während der Ausführung des zugrundeliegenden Verarbeitungsauftrags berechnet. Auf diese neu berechneten Basislinien wird über die Eigenschaften mit dem Präfix CalculatedBaseline
zugegriffen. Sie können diese Eigenschaften als ModelMetrics
Ihres Modellpakets in die Schritt „Modell“ aufnehmen. Dieses Modellpaket kann mit 5 verschiedenen Baselines registriert werden. Sie können es mit einem Prüftyp für jeden Prüftyp registrieren: Datenverzerrung, Modellabweichung und Modellerklärbarkeit durch die Ausführung des ClarifyCheck
Schritts und Modellqualität sowie Datenqualität aufgrund der Ausführung des QualityCheck
Schritts. Der register_new_baseline
Parameter bestimmt den Wert, der in den Eigenschaften mit dem Präfix BaselineUsedForDriftCheck
festgelegt wird, nachdem ein Schritt ausgeführt wurde.
Die folgende Tabelle mit möglichen Anwendungsfällen zeigt verschiedene Verhaltensweisen, die sich aus den Schrittparametern ergeben, die Sie für die Schritte ClarifyCheck
und QualityCheck
festlegen können:
Möglicher Anwendungsfall, den Sie bei der Auswahl dieser Konfiguration in Betracht ziehen könnten | skip_check / register_new_baseline |
Führt STEP einen Drift-Check durch? | Wert der Schritteigenschaft CalculatedBaseline |
Wert der Schritteigenschaft BaselineUsedForDriftCheck |
---|---|---|---|---|
Sie führen regelmäßiges Neutraining durch, bei denen Prüfungen aktiviert sind, um eine neue Modellversion zu erhalten, möchten aber die vorherigen Baselines als |
False / False |
Die Driftprüfung wird anhand vorhandener Baselines ausgeführt | Neue Baselines, die durch Ausführen des Schritts berechnet werden | Basiswert aus dem zuletzt zugelassenen Modell in der Modellregistrierung oder aus dem als Schrittparameter angegebenen Basiswert |
Sie führen regelmäßiges Neutraining mit aktivierten Prüfungen durch, um eine neue Modellversion zu erhalten, möchten aber die |
False / True |
Die Driftprüfung wird anhand vorhandener Baselines ausgeführt | Neue Baselines, die durch Ausführen des Schritts berechnet werden | Neu berechneter Basiswert durch Ausführen des Schritts (Wert der Eigenschaft CalculatedBaseline ) |
Sie initiieren die Pipeline, um eine neue Modellversion neu zu trainieren, weil Amazon SageMaker Model Monitor auf einem Endpunkt einen Verstoß für eine bestimmte Art von Prüfung erkannt hat, und Sie möchten diese Art der Prüfung gegenüber der vorherigen Baseline überspringen, aber die vorherige Baseline wie |
True / False |
Kein Abweichungscheck | Neue Baselines wurden durch Ausführen berechnet | Basiswert aus dem letzten genehmigten Modell in der Modellregistrierung oder aus dem als Schrittparameter angegebenen Basiswert |
Dies ist in den folgenden Fällen möglich:
|
True / True |
Kein Abweichungscheck | Neue Basislinien, die durch Ausführen des Schritts berechnet wurden | Neu berechneter Basiswert durch Ausführen des Schritts (Wert der Eigenschaft CalculatedBaseline ) |
Anmerkung
Wenn Sie in Ihrer Einschränkung wissenschaftliche Schreibweise verwenden, müssen Sie die Einschränkung in eine Gleitkommazahl umwandeln. Ein Beispiel für ein Vorverarbeitungsskript finden Sie unter Erstellen einer Modellqualitätsbasislinie.
Wenn Sie ein Modell mit Schritt „Modell“ registrieren, können Sie die BaselineUsedForDriftCheck
Eigenschaft als DriftCheckBaselines
registrieren. Diese Basisdateien können dann von Model Monitor für Modell- und Datenqualitätsprüfungen verwendet werden. Darüber hinaus können diese Baselines auch im QualityCheck
Schritt ClarifyCheckStep und verwendet werden, um neu trainierte Modelle mit den vorhandenen Modellen zu vergleichen, die in der Modellregistrierung für future Pipeline-Läufe registriert sind.
Erkennung von Abweichungen im Vergleich zu früheren Baselines in Pipelines
Im Falle des QualityCheck
-Schrittes, wenn Sie die Pipeline für regelmäßiges Neutraining initiieren, um eine neue Modellversion zu erhalten, möchten Sie den Trainingsschritt möglicherweise nicht ausführen, wenn die Datenqualität und die Datenverzerrung Schema für Verstöße (Datei constraint_violations.json) auf den Grundlinien Ihrer vorherigen genehmigten Modellversion ist. Möglicherweise möchten Sie die neu trainierte Modellversion auch nicht registrieren, wenn die Qualität, die Modellabweichung oder die Erklärbarkeit des Modells bei der Ausführung des ClarifyCheck
-Schritts gegen die registrierte Basisversion Ihrer vorherigen genehmigten Modellversion verstoßen. In diesen Fällen können Sie die gewünschten Prüfungen aktivieren, indem Sie die Eigenschaft skip_check
des entsprechenden Prüfschritts auf False
setzen, was dazu führt, dass ClarifyCheck
und der QualityCheck
-Schritt fehlschlagen, wenn ein Verstoß gegen frühere Baselines festgestellt wird. Der Pipeline-Prozess wird dann nicht fortgesetzt, so dass das von der Basislinie abweichende Modell nicht registriert wird. – ClarifyCheck
und QualityCheck
-Schritte sind in der Lage, DriftCheckBaselines
der letzten genehmigten Modellversion einer bestimmten Modellpaketgruppe zu erhalten, mit der verglichen werden kann. Frühere Basispläne können auch direkt bereitgestellt werden supplied_baseline_constraints
(zusätzlich, supplied_baseline_statistics
ob es sich um einen QualityCheck
Schritt handelt) und haben immer Vorrang vor allen Basisplänen, die aus der Modellpaketgruppe abgerufen wurden.
Lebenszyklus und Weiterentwicklung von Basisversionen und Modellversionen mit Pipelines
Indem Sie register_new_baseline
Ihres ClarifyCheck
und QualityCheck
-Schrittes auf False
setzen, ist Ihre vorherige Grundlinie über das Schritt-Eigenschaftspräfix BaselineUsedForDriftCheck
zugänglich. Sie können diese Baselines dann als DriftCheckBaselines
in der neuen Modellversion registrieren, wenn Sie ein Modell mit Schritt „Modell“ registrieren. Sobald Sie diese neue Modellversion in der Modellregistrierung genehmigen, wird der DriftCheckBaseline
in dieser Modellversion für die Schritte ClarifyCheck
und QualityCheck
im nächsten Pipeline-Prozess verfügbar. Wenn Sie die Basislinie einer bestimmten Prüfungsart für zukünftige Modellversionen aktualisieren möchten, können Sie register_new_baseline
auf True
setzen, so dass die Eigenschaften mit dem Präfix BaselineUsedForDriftCheck
zur neu berechneten Basislinie werden. Auf diese Weise können Sie Ihre bevorzugten Basislinien für ein in der future trainiertes Modell beibehalten oder die Basislinien bei Bedarf für Driftchecks aktualisieren und so Ihre Basisentwicklung und Ihren Lebenszyklus während Ihrer Modelltrainingsiterationen verwalten.
Das folgende Diagramm zeigt einen model-version-centric Überblick über die Basisentwicklung und den Lebenszyklus.