Références Amazon SageMaker Debugger - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Références Amazon SageMaker Debugger

Pour plus d'informations et de références sur l'utilisation d'Amazon SageMaker Debugger, consultez les rubriques suivantes.

SageMaker Débogueur Amazon APIs

Amazon SageMaker Debugger est API présent sur plusieurs sites et est utilisé pour mettre en œuvre la surveillance et l'analyse de la formation des modèles.

Amazon SageMaker Debugger fournit également le sagemaker-debuggerPython open source SDK qui est utilisé pour configurer des règles intégrées, définir des règles personnalisées et enregistrer des hooks afin de collecter des données tensorielles de sortie à partir de tâches de formation.

L'Amazon SageMaker Python SDK est un outil de haut niveau SDK axé sur l'expérimentation de l'apprentissage automatique. Ils SDK peuvent être utilisés pour déployer des règles intégrées ou personnalisées définies avec la bibliothèque SMDebug Python afin de surveiller et d'analyser ces tenseurs à l'aide d' SageMaker estimateurs.

Debugger a ajouté des opérations et des types à Amazon SageMaker API qui permettent à la plateforme d'utiliser Debugger lors de l'entraînement d'un modèle et de gérer la configuration des entrées et des sorties.

Les API opérations de configuration des règles utilisent la fonctionnalité SageMaker de traitement lors de l'analyse d'un modèle d'entraînement. Pour plus d'informations sur SageMaker le traitement, consultezCharges de travail de transformation des données avec Processing SageMaker .

Images Docker pour les règles du Debugger

Amazon SageMaker fournit deux ensembles d'images Docker pour les règles : un ensemble pour évaluer les règles fournies par SageMaker (règles intégrées) et un ensemble pour évaluer les règles personnalisées fournies dans les fichiers source Python.

Si vous utilisez Amazon SageMaker Python SDK, vous pouvez simplement utiliser des opérations de débogage de SageMaker haut niveau avec API des opérations d' SageMaker estimationAPI, sans avoir à récupérer manuellement les images Docker du débogueur et à configurer le. ConfigureTrainingJob API

Si vous n'utilisez pas le SageMaker PythonSDK, vous devez récupérer une image de base de conteneur prédéfinie pertinente pour les règles du Debugger. Amazon SageMaker Debugger fournit des images Docker prédéfinies pour les règles intégrées et personnalisées, et les images sont stockées dans Amazon Elastic Container Registry (Amazon). ECR Pour extraire une image d'un ECR référentiel Amazon (ou pour transférer une image vers un référentiel), utilisez le registre URL des noms complets de l'image à l'aide du CreateTrainingJobAPI. SageMaker utilise les URL modèles suivants pour l'adresse de registre d'images du conteneur de règles Debugger.

<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>

Pour connaître l'ID de compte dans chaque AWS région, le nom du ECR référentiel Amazon et la valeur du tag, consultez les rubriques suivantes.

Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles intégrés

Utilisez les valeurs suivantes pour les composants du registre URLs pour les images qui fournissent des règles intégrées pour Amazon SageMaker Debugger. Pour le compteIDs, consultez le tableau suivant.

ECRNom du référentiel : sagemaker-debugger-rules

Balise : la plus récente

Exemple de registre complet URL :

904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest

Tenez compte IDs des images de conteneurs de règles intégrées par AWS région

Région account_id
af-south-1

314341159256

ap-east-1

199566480951

ap-northeast-1

430734990657

ap-northeast-2

578805364391

ap-south-1

904829902805

ap-southeast-1

972752614525

ap-southeast-2

184798709955

ca-central-1

519511493484

cn-north-1

618459771430

cn-northwest-1

658757709296

eu-central-1

482524230118

eu-north-1

314864569078

eu-south-1

563282790590

eu-west-1

929884845733

eu-west-2

250201462417

eu-west-3

447278800020

me-south-1

986000313247

sa-east-1

818342061345

us-east-1

503895931360

us-east-2

915447279597

us-west-1

685455198987

us-west-2

895741380848

us-gov-west-1

515509971035

Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles personnalisés

Utilisez les valeurs suivantes pour les composants du registre URL pour les images qui fournissent des évaluateurs de règles personnalisés pour Amazon SageMaker Debugger. Pour le compteIDs, consultez le tableau suivant.

ECRNom du référentiel : sagemaker-debugger-rule-evaluator

Balise : la plus récente

Exemple de registre complet URL :

552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest

Tenez compte IDs des images du conteneur de règles personnalisées par AWS région

Région account_id
af-south-1

515950693465

ap-east-1

645844755771

ap-northeast-1

670969264625

ap-northeast-2

326368420253

ap-south-1

552407032007

ap-southeast-1

631532610101

ap-southeast-2

445670767460

ca-central-1

105842248657

cn-north-1

617202126805

cn-northwest-1

658559488188

eu-central-1

691764027602

eu-north-1

091235270104

eu-south-1

335033873580

eu-west-1

606966180310

eu-west-2

074613877050

eu-west-3

224335253976

me-south-1

050406412588

sa-east-1

466516958431

us-east-1

864354269164

us-east-2

840043622174

us-west-1

952348334681

us-west-2

759209512951

us-gov-west-1

515361955729

Exceptions relatives SageMaker à Amazon Debugger

Amazon SageMaker Debugger est conçu pour tenir compte du fait que les tenseurs requis pour exécuter une règle peuvent ne pas être disponibles à chaque étape. Par conséquent, il génère des exceptions qui vous permettent de contrôler ce qui se passe s'il manque un tenseur. Ces exceptions sont disponibles dans le module smdebug.exceptions. Vous pouvez les importer comme suit :

from smdebug.exceptions import *

Les exceptions suivantes sont disponibles :

  • TensorUnavailableForStep – le tenseur demandé n'est pas disponible pour l'étape. Cela peut signifier que cette étape peut ne pas être enregistrée par le hook ou qu'elle peut avoir enregistré certains tenseurs mais que le tenseur requis n'en fait pas partie. Si cette exception est générée, cela signifie que ce tenseur ne pourra jamais être disponible pour cette étape à l'avenir. Si le tenseur a enregistré des réductions pour l'étape, il vous informe qu'elles peuvent être interrogées.

  • TensorUnavailable— Ce tenseur n'est pas enregistré ou n'a pas été enregistré par le smdebugAPI. Cela signifie que ce tenseur n'est jamais détecté pour une étape dans smdebug.

  • StepUnavailable – l'étape n'a pas été enregistrée et Debugger ne contient aucune donnée de l'étape.

  • StepNotYetAvailable : l'étape n'a pas encore été détectée par smdebug. Elle pourrait être disponible à l'avenir si l'entraînement est toujours en cours. Debugger charge automatiquement les nouvelles données au fur et à mesure qu'elles deviennent disponibles.

  • NoMoreData – générée à la fin de l'entraînement. Si vous voyez cette exception, cela signifie qu'il n'y a plus d'étapes ni plus aucun tenseur à enregistrer.

  • IndexReaderException – le lecteur d'index n'est pas valide.

  • InvalidWorker – un composant non valide a été invoqué.

  • RuleEvaluationConditionMet – l'évaluation de la règle à l'étape a abouti à la « condition remplie ».

  • InsufficientInformationForRuleInvocation – les informations fournies sont insuffisantes pour appeler la règle.

Formation distribuée prise en charge par Amazon SageMaker Debugger

La liste suivante présente les domaines de validité et les considérations relatives à l'utilisation de Debugger sur les tâches d'entraînement avec des cadres de deep learning et les différentes options d'entraînement distribué.

  • Horovod

    Domaine de validité de l'utilisation de Debugger pour les tâches d'entraînement avec Horovod

    Cadre de deep learning Apache MXNet TensorFlow 1. x TensorFlow 2. x TensorFlow 2.x avec Keras PyTorch
    Surveillance des goulets d'étranglement du système Oui Oui Oui Oui Oui
    Profilage des opérations de cadre Non Non Non Oui Oui
    Débogage des tenseurs de sortie de modèle Oui Oui Oui Oui Oui
  • SageMaker données distribuées en parallèle

    Portée de validité de l'utilisation de Debugger pour des tâches de formation avec des données SageMaker distribuées en parallèle

    Cadre de deep learning TensorFlow 2. x TensorFlow 2.x avec Keras PyTorch
    Surveillance des goulets d'étranglement du système Oui Oui Oui
    Profilage des opérations de cadre Non* Non** Oui
    Débogage des tenseurs de sortie de modèle Oui Oui Oui

    * Le débogueur ne prend pas en charge le profilage du framework pour TensorFlow 2.x.

    ** SageMaker distributed data parallel ne prend pas en charge la version TensorFlow 2.x avec l'implémentation de Keras.

  • SageMaker distributed model parallel : le Debugger ne prend pas en charge l'entraînement en parallèle du modèle SageMaker distribué.

  • Formation distribuée avec SageMaker points de contrôle — Le débogueur n'est pas disponible pour les tâches de formation lorsque l'option de formation distribuée et les points de SageMaker contrôle sont activés. Une erreur semblable à ce qui suit peut s'afficher :

    SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled

    Pour utiliser Debugger pour des tâches de formation avec des options de formation distribuées, vous devez désactiver le point de SageMaker contrôle et ajouter des fonctions de pointage manuel à votre script d'entraînement. Pour de plus amples informations sur l'utilisation de Debugger avec des options d'entraînement distribué et des points de contrôle, veuillez consulter Utilisation de données SageMaker distribuées en parallèle avec Amazon SageMaker Debugger et les points de contrôle et Sauvegarde des points de contrôle.

  • Serveur de paramètres – Debugger ne prend pas en charge l'entraînement distribué basé sur le serveur de paramètres.

  • Le profilage des opérations du framework d'entraînement distribué, telles que le AllReduced fonctionnement des opérations en parallèle avec les données SageMaker distribuées et les opérations Horovod, n'est pas disponible.