Basisberechnung, Drifterkennung und Lebenszyklus mit ClarifyCheck und QualityCheck Schritte in Amazon SageMaker Pipelines - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Basisberechnung, Drifterkennung und Lebenszyklus mit ClarifyCheck und QualityCheck Schritte in Amazon SageMaker Pipelines

Im folgenden Thema wird erläutert, wie sich Baselines und Modellversionen in den SageMaker Amazon-Pipelines entwickeln, wenn die Schritte und verwendet werden. ClarifyCheck QualityCheck

Für diesen ClarifyCheck Schritt ist eine Baseline eine einzelne Datei, die sich in den Schritteigenschaften mit dem Suffix constraints befindet. Für den QualityCheck Schritt ist eine Baseline eine Kombination aus zwei Dateien, die sich in den Schritteigenschaften befinden: eine mit dem Suffix statistics und die andere mit dem Suffix constraints. In den folgenden Themen behandeln wir diese Eigenschaften mit einem Präfix, das beschreibt, wie sie verwendet werden, was sich auf das Basisverhalten und den Lebenszyklus in diesen beiden Pipeline-Schritten auswirkt. Beispielsweise berechnet der ClarifyCheck Schritt immer die neuen Basislinien in der CalculatedBaselineConstraints Eigenschaft und weist sie zu, und der QualityCheck Schritt macht dasselbe in den Eigenschaften CalculatedBaselineConstraints und CalculatedBaselineStatistics.

Basisberechnung und Registrierung für und Schritte ClarifyCheck QualityCheck

Sowohl in den ClarifyCheck Schritten als auch in den QualityCheck Schritten werden immer neue Basislinien auf der Grundlage von Schritteingaben während der Ausführung des zugrundeliegenden Verarbeitungsauftrags berechnet. Auf diese neu berechneten Basislinien wird über die Eigenschaften mit dem Präfix CalculatedBaseline zugegriffen. Sie können diese Eigenschaften als ModelMetrics Ihres Modellpakets in die Schritt „Modell“ aufnehmen. Dieses Modellpaket kann mit 5 verschiedenen Baselines registriert werden. Sie können es mit einem Prüftyp für jeden Prüftyp registrieren: Datenverzerrung, Modellabweichung und Modellerklärbarkeit durch die Ausführung des ClarifyCheck Schritts und Modellqualität sowie Datenqualität aufgrund der Ausführung des QualityCheck Schritts. Der register_new_baseline Parameter bestimmt den Wert, der in den Eigenschaften mit dem Präfix BaselineUsedForDriftCheck festgelegt wird, nachdem ein Schritt ausgeführt wurde.

Die folgende Tabelle mit möglichen Anwendungsfällen zeigt verschiedene Verhaltensweisen, die sich aus den Schrittparametern ergeben, die Sie für die Schritte ClarifyCheck und QualityCheck festlegen können:

Möglicher Anwendungsfall, den Sie bei der Auswahl dieser Konfiguration in Betracht ziehen könnten skip_check / register_new_baseline Führt STEP einen Drift-Check durch? Wert der Schritteigenschaft CalculatedBaseline Wert der Schritteigenschaft BaselineUsedForDriftCheck

Sie führen regelmäßiges Neutraining durch, bei denen Prüfungen aktiviert sind, um eine neue Modellversion zu erhalten, möchten aber die vorherigen Baselines als DriftCheckBaselines in der Modellregistrierung für Ihre neue Modellversion übernehmen.

False/ False Die Driftprüfung wird anhand vorhandener Baselines ausgeführt Neue Baselines, die durch Ausführen des Schritts berechnet werden Basiswert aus dem zuletzt zugelassenen Modell in der Modellregistrierung oder aus dem als Schrittparameter angegebenen Basiswert

Sie führen regelmäßiges Neutraining mit aktivierten Prüfungen durch, um eine neue Modellversion zu erhalten, möchten aber die DriftCheckBaselines in der Modellregistrierung mit den neu berechneten Basiswerten für Ihre neue Modellversion aktualisieren.

False/ True Die Driftprüfung wird anhand vorhandener Baselines ausgeführt Neue Baselines, die durch Ausführen des Schritts berechnet werden Neu berechneter Basiswert durch Ausführen des Schritts (Wert der Eigenschaft CalculatedBaseline)

Sie initiieren die Pipeline, um eine neue Modellversion neu zu trainieren, weil Amazon SageMaker Model Monitor auf einem Endpunkt einen Verstoß für eine bestimmte Art von Prüfung erkannt hat, und Sie möchten diese Art der Prüfung gegenüber der vorherigen Baseline überspringen, aber die vorherige Baseline wie DriftCheckBaselines in der Modellregistrierung für Ihre neue Modellversion übernehmen.

True/ False Kein Abweichungscheck Neue Baselines wurden durch Ausführen berechnet Basiswert aus dem letzten genehmigten Modell in der Modellregistrierung oder aus dem als Schrittparameter angegebenen Basiswert
Dies ist in den folgenden Fällen möglich:
  • Sie starten den ersten Lauf der Pipeline, erstellen Ihre erste Modellversion und generieren die ersten Baselines.

  • Sie initiieren die Pipeline, um eine neue Modellversion neu zu trainieren, da Model Monitor auf dem Endpunkt eine Verletzung für einen bestimmten Prüfungstyp erkannt hat. Wenn Sie den Vergleich mit dem vorherigen Basisplan überspringen und den direkt DriftCheckBaselines mit dem neu berechneten Basisplan in der Modellregistrierung aktualisieren möchten.

True/ True Kein Abweichungscheck Neue Basislinien, die durch Ausführen des Schritts berechnet wurden Neu berechneter Basiswert durch Ausführen des Schritts (Wert der Eigenschaft CalculatedBaseline)
Anmerkung

Wenn Sie in Ihrer Einschränkung wissenschaftliche Schreibweise verwenden, müssen Sie die Einschränkung in eine Gleitkommazahl umwandeln. Ein Beispiel für ein Vorverarbeitungsskript finden Sie unter Erstellen einer Modellqualitätsbasislinie.

Wenn Sie ein Modell mit Schritt „Modell“ registrieren, können Sie die BaselineUsedForDriftCheck Eigenschaft als DriftCheckBaselines registrieren. Diese Basisdateien können dann von Model Monitor für Modell- und Datenqualitätsprüfungen verwendet werden. Darüber hinaus können diese Baselines auch im QualityCheck Schritt ClarifyCheckStep und verwendet werden, um neu trainierte Modelle mit den vorhandenen Modellen zu vergleichen, die in der Modellregistrierung für future Pipeline-Läufe registriert sind.

Erkennung von Abweichungen im Vergleich zu früheren Baselines in Pipelines

Im Falle des QualityCheck-Schrittes, wenn Sie die Pipeline für regelmäßiges Neutraining initiieren, um eine neue Modellversion zu erhalten, möchten Sie den Trainingsschritt möglicherweise nicht ausführen, wenn die Datenqualität und die Datenverzerrung Schema für Verstöße (Datei constraint_violations.json) auf den Grundlinien Ihrer vorherigen genehmigten Modellversion ist. Möglicherweise möchten Sie die neu trainierte Modellversion auch nicht registrieren, wenn die Qualität, die Modellabweichung oder die Erklärbarkeit des Modells bei der Ausführung des ClarifyCheck-Schritts gegen die registrierte Basisversion Ihrer vorherigen genehmigten Modellversion verstoßen. In diesen Fällen können Sie die gewünschten Prüfungen aktivieren, indem Sie die Eigenschaft skip_check des entsprechenden Prüfschritts auf False setzen, was dazu führt, dass ClarifyCheck und der QualityCheck-Schritt fehlschlagen, wenn ein Verstoß gegen frühere Baselines festgestellt wird. Der Pipeline-Prozess wird dann nicht fortgesetzt, so dass das von der Basislinie abweichende Modell nicht registriert wird. – ClarifyCheckund QualityCheck-Schritte sind in der Lage, DriftCheckBaselines der letzten genehmigten Modellversion einer bestimmten Modellpaketgruppe zu erhalten, mit der verglichen werden kann. Frühere Basispläne können auch direkt bereitgestellt werden supplied_baseline_constraints (zusätzlich, supplied_baseline_statistics ob es sich um einen QualityCheck Schritt handelt) und haben immer Vorrang vor allen Basisplänen, die aus der Modellpaketgruppe abgerufen wurden.

Lebenszyklus und Weiterentwicklung von Basisversionen und Modellversionen mit Pipelines

Indem Sie register_new_baseline Ihres ClarifyCheck und QualityCheck-Schrittes auf False setzen, ist Ihre vorherige Grundlinie über das Schritt-Eigenschaftspräfix BaselineUsedForDriftCheck zugänglich. Sie können diese Baselines dann als DriftCheckBaselines in der neuen Modellversion registrieren, wenn Sie ein Modell mit Schritt „Modell“ registrieren. Sobald Sie diese neue Modellversion in der Modellregistrierung genehmigen, wird der DriftCheckBaseline in dieser Modellversion für die Schritte ClarifyCheck und QualityCheck im nächsten Pipeline-Prozess verfügbar. Wenn Sie die Basislinie einer bestimmten Prüfungsart für zukünftige Modellversionen aktualisieren möchten, können Sie register_new_baseline auf True setzen, so dass die Eigenschaften mit dem Präfix BaselineUsedForDriftCheck zur neu berechneten Basislinie werden. Auf diese Weise können Sie Ihre bevorzugten Basislinien für ein in der future trainiertes Modell beibehalten oder die Basislinien bei Bedarf für Driftchecks aktualisieren und so Ihre Basisentwicklung und Ihren Lebenszyklus während Ihrer Modelltrainingsiterationen verwalten.

Das folgende Diagramm zeigt einen model-version-centric Überblick über die Basisentwicklung und den Lebenszyklus.

Ein model-version-centric Überblick über die Basisentwicklung und den Lebenszyklus.