Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon SageMaker Debugger-Referenzen
Weitere Informationen und Referenzen zur Verwendung von Amazon SageMaker Debugger finden Sie in den folgenden Themen.
Themen
SageMaker Amazon-Debugger APIs
Amazon SageMaker Debugger ist an mehreren Standorten API tätig, die für die Überwachung und Analyse des Modelltrainings verwendet werden.
Amazon SageMaker Debugger stellt auch das sagemaker-debugger
Open-Source-Python
Amazon SageMaker Python SDKSMDebug
Python-Bibliothek definiert wurden, um diese Tensoren mithilfe von SageMaker Schätzern zu überwachen und zu analysieren.
Debugger hat Amazon um Operationen und Typen erweitert, die es der Plattform ermöglichen SageMaker API, den Debugger beim Trainieren eines Modells zu verwenden und die Konfiguration von Eingaben und Ausgaben zu verwalten.
-
CreateTrainingJob
undUpdateTrainingJob
verwenden Sie den folgenden DebuggerAPIs, um Tensorsammlungen, Regeln, Regelbilder und Profilerstellungsoptionen zu konfigurieren: -
DescribeTrainingJob
bietet eine vollständige Beschreibung eines Trainingsauftrags, einschließlich der folgenden Debugger-Konfigurationen und Status der Regelauswertung:
Die API Regelkonfigurationsoperationen verwenden die SageMaker Verarbeitungsfunktion bei der Analyse eines Modelltrainings. Weitere Informationen zur SageMaker Verarbeitung finden Sie unterWorkloads zur Datentransformation mit SageMaker Verarbeitung.
Docker-Images für Debugger-Regeln
Amazon SageMaker stellt zwei Sätze von Docker-Images für Regeln bereit: einen Satz für die Auswertung von Regeln, die von SageMaker (integrierten Regeln) bereitgestellt werden, und einen Satz für die Auswertung von benutzerdefinierten Regeln, die in Python-Quelldateien bereitgestellt werden.
Wenn Sie Amazon SageMaker PythonConfigureTrainingJob
API
Wenn Sie SageMaker Python nicht verwendenSDK, müssen Sie ein entsprechendes vorgefertigtes Container-Basis-Image für die Debugger-Regeln abrufen. Amazon SageMaker Debugger stellt vorgefertigte Docker-Images für integrierte und benutzerdefinierte Regeln bereit. Die Images werden in Amazon Elastic Container Registry (Amazon) gespeichert. ECR Um ein Bild aus einem ECR Amazon-Repository abzurufen (oder ein Bild in eines zu übertragen), verwenden Sie die vollständige Namensregistrierung URL des Images mit dem CreateTrainingJob
API. SageMaker verwendet die folgenden URL Muster für die Registrierungsadresse des Container-Images der Debugger-Regel.
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
Informationen zur Konto-ID in jeder AWS Region, zum ECR Amazon-Repository-Namen und zum Tag-Wert finden Sie in den folgenden Themen.
Themen
Amazon SageMaker Debugger-Image URIs für integrierte Regelauswerter
Verwenden Sie die folgenden Werte für die Komponenten der Registrierung URLs für die Images, die integrierte Regeln für Amazon SageMaker Debugger bereitstellen. Informationen zum Konto IDs finden Sie in der folgenden Tabelle.
ECRName des Repositorys: sagemaker-debugger-rules
Tag: neuestes
Beispiel für eine vollständige Registrierung URL:
904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest
Konto IDs für Container-Images mit integrierten Regeln nach AWS Region
Region | account_id |
---|---|
af-south-1 |
314341159256 |
ap-east-1 |
199566480951 |
ap-northeast-1 |
430734990657 |
ap-northeast-2 |
578805364391 |
ap-south-1 |
904829902805 |
ap-southeast-1 |
972752614525 |
ap-southeast-2 |
184798709955 |
ca-central-1 |
519511493484 |
cn-north-1 |
618459771430 |
cn-northwest-1 |
658757709296 |
eu-central-1 |
482524230118 |
eu-north-1 |
314864569078 |
eu-south-1 |
563282790590 |
eu-west-1 |
929884845733 |
eu-west-2 |
250201462417 |
eu-west-3 |
447278800020 |
me-south-1 |
986000313247 |
sa-east-1 |
818342061345 |
us-east-1 |
503895931360 |
us-east-2 |
915447279597 |
us-west-1 |
685455198987 |
us-west-2 |
895741380848 |
us-gov-west-1 |
515509971035 |
Amazon SageMaker Debugger-Image URIs für benutzerdefinierte Regelauswerter
Verwenden Sie die folgenden Werte für die Komponenten der Registrierung URL für die Images, die benutzerdefinierte Regelauswertungen für Amazon SageMaker Debugger bereitstellen. Informationen zum Konto IDs finden Sie in der folgenden Tabelle.
ECRName des Repositorys: sagemaker-debugger-rule-evaluator
Tag: neuestes
Beispiel für eine vollständige Registrierung URL:
552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
Konto IDs für Container-Images mit benutzerdefinierten Regeln nach AWS Region
Region | account_id |
---|---|
af-south-1 |
515950693465 |
ap-east-1 |
645844755771 |
ap-northeast-1 |
670969264625 |
ap-northeast-2 |
326368420253 |
ap-south-1 |
552407032007 |
ap-southeast-1 |
631532610101 |
ap-southeast-2 |
445670767460 |
ca-central-1 |
105842248657 |
cn-north-1 |
617202126805 |
cn-northwest-1 |
658559488188 |
eu-central-1 |
691764027602 |
eu-north-1 |
091235270104 |
eu-south-1 |
335033873580 |
eu-west-1 |
606966180310 |
eu-west-2 |
074613877050 |
eu-west-3 |
224335253976 |
me-south-1 |
050406412588 |
sa-east-1 |
466516958431 |
us-east-1 |
864354269164 |
us-east-2 |
840043622174 |
us-west-1 |
952348334681 |
us-west-2 |
759209512951 |
us-gov-west-1 |
515361955729 |
Amazon SageMaker Debugger-Ausnahmen
Amazon SageMaker Debugger wurde entwickelt, um zu berücksichtigen, dass Tensoren, die zur Ausführung einer Regel erforderlich sind, möglicherweise nicht bei jedem Schritt verfügbar sind. Infolgedessen werden einige Ausnahmen ausgelöst, mit denen Sie kontrollieren können, was passiert, wenn ein Tensor fehlt. Diese Ausnahmen sind im Modul smdebug.exceptions
from smdebug.exceptions import *
Folgende Ausnahmen sind verfügbar:
-
TensorUnavailableForStep
– Der angeforderte Tensor ist für diesen Schritt nicht verfügbar. Dies könnte bedeuten, dass dieser Schritt möglicherweise nicht durch den Hook gespeichert wird oder dass dieser Schritt zwar einige Tensoren gespeichert hat, der angeforderte Tensor aber nicht dazugehört. Wenn diese Ausnahme angezeigt wird, bedeutet dies, dass dieser Tensor zukünftig niemals für diesen Schritt verfügbar werden kann. Wenn für den Tensor Reduktionen für den Schritt gespeichert wurden, wird Ihnen mitgeteilt, dass sie abgefragt werden können. -
TensorUnavailable
— Dieser Tensor wird nicht gespeichert oder wurde nicht von der gespeichert.smdebug
API Dies bedeutet, dass dieser Tensor für keinen Schritt insmdebug
zu sehen ist. -
StepUnavailable
– Der Schritt wurde nicht gespeichert und der Debugger hat keine Daten aus diesem Schritt. -
StepNotYetAvailable
– Der Schritt wurde vonsmdebug
noch nicht gesehen. Es könnte in der Zukunft verfügbar sein, wenn das Training noch andauert. Debugger lädt automatisch neue Daten, sobald sie verfügbar sind. -
NoMoreData
– Erhöht, wenn das Training endet. Sobald dies zu sehen ist, sind keine weiteren zu speichernde Schritte und Tensoren vorhanden. -
IndexReaderException
– Der Indexleser ist ungültig. -
InvalidWorker
– Es wurde ein ungültiger Auftragnehmer aufgerufen. -
RuleEvaluationConditionMet
– Die Auswertung der Regel im Schritt führte dazu, dass die Bedingung erfüllt wurde. -
InsufficientInformationForRuleInvocation
– Es wurden nicht genügend Informationen bereitgestellt, um die Regel aufzurufen.
Verteilte Schulungen, unterstützt von Amazon SageMaker Debugger
Die folgende Liste zeigt den Gültigkeitsbereich und die Überlegungen zur Verwendung von Debugger für Trainingsaufträge mit Deep-Learning-Frameworks und verschiedenen verteilten Trainingsoptionen.
-
Horovod
Gültigkeitsbereich der Verwendung von Debugger für Trainingsaufträge mit Horovod
Deep-Learning-Framework Apache MXNet TensorFlow 1. x TensorFlow 2.x TensorFlow 2.x mit Keras PyTorch Überwachung von Systemengpässen Ja Ja Ja Ja Ja Profiling-Framework-Operationen Nein Nein Nein Ja Ja Debuggen von Modellausgabetensoren Ja Ja Ja Ja Ja -
SageMaker parallel verteilte Daten
Gültigkeitsbereich der Verwendung von Debugger für Trainingsjobs mit parallel SageMaker verteilten Daten
Deep-Learning-Framework TensorFlow 2.x TensorFlow 2.x mit Keras PyTorch Überwachung von Systemengpässen Ja Ja Ja Profiling-Framework-Operationen Nein* Nein** Ja Debuggen von Modellausgabetensoren Ja Ja Ja * Der Debugger unterstützt kein Framework-Profiling für 2.x. TensorFlow
** SageMaker Distributed Data Parallel unterstützt TensorFlow 2.x mit Keras-Implementierung nicht.
-
SageMaker paralleles verteiltes Modell — Der Debugger unterstützt kein paralleles Training mit SageMaker verteilten Modellen.
-
Verteiltes Training mit SageMaker Checkpoints — Der Debugger ist nicht für Trainingsjobs verfügbar, wenn sowohl die Option für verteiltes Training als auch SageMaker Checkpoints aktiviert sind. Möglicherweise wird ein Fehler angezeigt, der wie folgt aussieht:
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Um den Debugger für Trainingsaufgaben mit verteilten Trainingsoptionen zu verwenden, müssen Sie das SageMaker Checkpointing deaktivieren und Ihrem Trainingsskript manuelle Checkpoint-Funktionen hinzufügen. Mehr Informationen über die Verwendung des Debuggers mit verteilten Trainingsoptionen und Prüfpunkte finden Sie unter Verwenden SageMaker verteilter Daten parallel zu Amazon SageMaker Debugger und Checkpoints und Speichern von Prüfpunkten.
-
Parameterserver – Der Debugger unterstützt kein auf Parameterservern basierendes verteiltes Training.
-
Die Erstellung von Profilen für verteilte Trainingsrahmenoperationen, wie z. B. den parallel
AllReduced
Betrieb SageMaker verteilter Daten und Horovod-Operationen, ist nicht verfügbar.