Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Références Amazon SageMaker Debugger
Pour plus d'informations et de références sur l'utilisation d'Amazon SageMaker Debugger, consultez les rubriques suivantes.
Rubriques
SageMaker Débogueur Amazon APIs
Amazon SageMaker Debugger est API présent sur plusieurs sites et est utilisé pour mettre en œuvre la surveillance et l'analyse de la formation des modèles.
Amazon SageMaker Debugger fournit également le sagemaker-debugger
Python
L'Amazon SageMaker Python SDKSMDebug
Python afin de surveiller et d'analyser ces tenseurs à l'aide d' SageMaker estimateurs.
Debugger a ajouté des opérations et des types à Amazon SageMaker API qui permettent à la plateforme d'utiliser Debugger lors de l'entraînement d'un modèle et de gérer la configuration des entrées et des sorties.
-
CreateTrainingJob
etUpdateTrainingJob
utilisez le débogueur suivant APIs pour configurer les collections de tenseurs, les règles, les images de règles et les options de profilage : -
DescribeTrainingJob
fournit une description complète d'une tâche d'entraînement, y compris les configurations Debugger et les statuts d'évaluation de règle suivants :
Les API opérations de configuration des règles utilisent la fonctionnalité SageMaker de traitement lors de l'analyse d'un modèle d'entraînement. Pour plus d'informations sur SageMaker le traitement, consultezCharges de travail de transformation des données avec Processing SageMaker .
Images Docker pour les règles du Debugger
Amazon SageMaker fournit deux ensembles d'images Docker pour les règles : un ensemble pour évaluer les règles fournies par SageMaker (règles intégrées) et un ensemble pour évaluer les règles personnalisées fournies dans les fichiers source Python.
Si vous utilisez Amazon SageMaker Python SDKConfigureTrainingJob
API
Si vous n'utilisez pas le SageMaker PythonSDK, vous devez récupérer une image de base de conteneur prédéfinie pertinente pour les règles du Debugger. Amazon SageMaker Debugger fournit des images Docker prédéfinies pour les règles intégrées et personnalisées, et les images sont stockées dans Amazon Elastic Container Registry (Amazon). ECR Pour extraire une image d'un ECR référentiel Amazon (ou pour transférer une image vers un référentiel), utilisez le registre URL des noms complets de l'image à l'aide du CreateTrainingJob
API. SageMaker utilise les URL modèles suivants pour l'adresse de registre d'images du conteneur de règles Debugger.
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
Pour connaître l'ID de compte dans chaque AWS région, le nom du ECR référentiel Amazon et la valeur du tag, consultez les rubriques suivantes.
Rubriques
Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles intégrés
Utilisez les valeurs suivantes pour les composants du registre URLs pour les images qui fournissent des règles intégrées pour Amazon SageMaker Debugger. Pour le compteIDs, consultez le tableau suivant.
ECRNom du référentiel : sagemaker-debugger-rules
Balise : la plus récente
Exemple de registre complet URL :
904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest
Tenez compte IDs des images de conteneurs de règles intégrées par AWS région
Région | account_id |
---|---|
af-south-1 |
314341159256 |
ap-east-1 |
199566480951 |
ap-northeast-1 |
430734990657 |
ap-northeast-2 |
578805364391 |
ap-south-1 |
904829902805 |
ap-southeast-1 |
972752614525 |
ap-southeast-2 |
184798709955 |
ca-central-1 |
519511493484 |
cn-north-1 |
618459771430 |
cn-northwest-1 |
658757709296 |
eu-central-1 |
482524230118 |
eu-north-1 |
314864569078 |
eu-south-1 |
563282790590 |
eu-west-1 |
929884845733 |
eu-west-2 |
250201462417 |
eu-west-3 |
447278800020 |
me-south-1 |
986000313247 |
sa-east-1 |
818342061345 |
us-east-1 |
503895931360 |
us-east-2 |
915447279597 |
us-west-1 |
685455198987 |
us-west-2 |
895741380848 |
us-gov-west-1 |
515509971035 |
Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles personnalisés
Utilisez les valeurs suivantes pour les composants du registre URL pour les images qui fournissent des évaluateurs de règles personnalisés pour Amazon SageMaker Debugger. Pour le compteIDs, consultez le tableau suivant.
ECRNom du référentiel : sagemaker-debugger-rule-evaluator
Balise : la plus récente
Exemple de registre complet URL :
552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
Tenez compte IDs des images du conteneur de règles personnalisées par AWS région
Région | account_id |
---|---|
af-south-1 |
515950693465 |
ap-east-1 |
645844755771 |
ap-northeast-1 |
670969264625 |
ap-northeast-2 |
326368420253 |
ap-south-1 |
552407032007 |
ap-southeast-1 |
631532610101 |
ap-southeast-2 |
445670767460 |
ca-central-1 |
105842248657 |
cn-north-1 |
617202126805 |
cn-northwest-1 |
658559488188 |
eu-central-1 |
691764027602 |
eu-north-1 |
091235270104 |
eu-south-1 |
335033873580 |
eu-west-1 |
606966180310 |
eu-west-2 |
074613877050 |
eu-west-3 |
224335253976 |
me-south-1 |
050406412588 |
sa-east-1 |
466516958431 |
us-east-1 |
864354269164 |
us-east-2 |
840043622174 |
us-west-1 |
952348334681 |
us-west-2 |
759209512951 |
us-gov-west-1 |
515361955729 |
Exceptions relatives SageMaker à Amazon Debugger
Amazon SageMaker Debugger est conçu pour tenir compte du fait que les tenseurs requis pour exécuter une règle peuvent ne pas être disponibles à chaque étape. Par conséquent, il génère des exceptions qui vous permettent de contrôler ce qui se passe s'il manque un tenseur. Ces exceptions sont disponibles dans le module smdebug.exceptions
from smdebug.exceptions import *
Les exceptions suivantes sont disponibles :
-
TensorUnavailableForStep
– le tenseur demandé n'est pas disponible pour l'étape. Cela peut signifier que cette étape peut ne pas être enregistrée par le hook ou qu'elle peut avoir enregistré certains tenseurs mais que le tenseur requis n'en fait pas partie. Si cette exception est générée, cela signifie que ce tenseur ne pourra jamais être disponible pour cette étape à l'avenir. Si le tenseur a enregistré des réductions pour l'étape, il vous informe qu'elles peuvent être interrogées. -
TensorUnavailable
— Ce tenseur n'est pas enregistré ou n'a pas été enregistré par lesmdebug
API. Cela signifie que ce tenseur n'est jamais détecté pour une étape danssmdebug
. -
StepUnavailable
– l'étape n'a pas été enregistrée et Debugger ne contient aucune donnée de l'étape. -
StepNotYetAvailable
: l'étape n'a pas encore été détectée parsmdebug
. Elle pourrait être disponible à l'avenir si l'entraînement est toujours en cours. Debugger charge automatiquement les nouvelles données au fur et à mesure qu'elles deviennent disponibles. -
NoMoreData
– générée à la fin de l'entraînement. Si vous voyez cette exception, cela signifie qu'il n'y a plus d'étapes ni plus aucun tenseur à enregistrer. -
IndexReaderException
– le lecteur d'index n'est pas valide. -
InvalidWorker
– un composant non valide a été invoqué. -
RuleEvaluationConditionMet
– l'évaluation de la règle à l'étape a abouti à la « condition remplie ». -
InsufficientInformationForRuleInvocation
– les informations fournies sont insuffisantes pour appeler la règle.
Formation distribuée prise en charge par Amazon SageMaker Debugger
La liste suivante présente les domaines de validité et les considérations relatives à l'utilisation de Debugger sur les tâches d'entraînement avec des cadres de deep learning et les différentes options d'entraînement distribué.
-
Horovod
Domaine de validité de l'utilisation de Debugger pour les tâches d'entraînement avec Horovod
Cadre de deep learning Apache MXNet TensorFlow 1. x TensorFlow 2. x TensorFlow 2.x avec Keras PyTorch Surveillance des goulets d'étranglement du système Oui Oui Oui Oui Oui Profilage des opérations de cadre Non Non Non Oui Oui Débogage des tenseurs de sortie de modèle Oui Oui Oui Oui Oui -
SageMaker données distribuées en parallèle
Portée de validité de l'utilisation de Debugger pour des tâches de formation avec des données SageMaker distribuées en parallèle
Cadre de deep learning TensorFlow 2. x TensorFlow 2.x avec Keras PyTorch Surveillance des goulets d'étranglement du système Oui Oui Oui Profilage des opérations de cadre Non* Non** Oui Débogage des tenseurs de sortie de modèle Oui Oui Oui * Le débogueur ne prend pas en charge le profilage du framework pour TensorFlow 2.x.
** SageMaker distributed data parallel ne prend pas en charge la version TensorFlow 2.x avec l'implémentation de Keras.
-
SageMaker distributed model parallel : le Debugger ne prend pas en charge l'entraînement en parallèle du modèle SageMaker distribué.
-
Formation distribuée avec SageMaker points de contrôle — Le débogueur n'est pas disponible pour les tâches de formation lorsque l'option de formation distribuée et les points de SageMaker contrôle sont activés. Une erreur semblable à ce qui suit peut s'afficher :
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Pour utiliser Debugger pour des tâches de formation avec des options de formation distribuées, vous devez désactiver le point de SageMaker contrôle et ajouter des fonctions de pointage manuel à votre script d'entraînement. Pour de plus amples informations sur l'utilisation de Debugger avec des options d'entraînement distribué et des points de contrôle, veuillez consulter Utilisation de données SageMaker distribuées en parallèle avec Amazon SageMaker Debugger et les points de contrôle et Sauvegarde des points de contrôle.
-
Serveur de paramètres – Debugger ne prend pas en charge l'entraînement distribué basé sur le serveur de paramètres.
-
Le profilage des opérations du framework d'entraînement distribué, telles que le
AllReduced
fonctionnement des opérations en parallèle avec les données SageMaker distribuées et les opérations Horovod, n'est pas disponible.