

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Références Amazon SageMaker Debugger
<a name="debugger-reference"></a>

Pour plus d'informations et de références sur l'utilisation d'Amazon SageMaker Debugger, consultez les rubriques suivantes.

**Topics**
+ [SageMaker Débogueur Amazon APIs](#debugger-apis)
+ [Images Docker pour les règles Debugger](#debugger-docker-images-rules)
+ [Exceptions relatives SageMaker à Amazon Debugger](#debugger-exceptions)
+ [Formation distribuée prise en charge par Amazon SageMaker Debugger](#debugger-considerations)

## SageMaker Débogueur Amazon APIs
<a name="debugger-apis"></a>

Amazon SageMaker Debugger dispose d'opérations d'API sur plusieurs sites qui sont utilisées pour mettre en œuvre la surveillance et l'analyse de la formation des modèles.

Amazon SageMaker Debugger fournit également le [SDK `sagemaker-debugger` Python](https://github.com/awslabs/sagemaker-debugger/tree/master/smdebug) open source qui est utilisé pour configurer des règles intégrées, définir des règles personnalisées et enregistrer des hooks afin de collecter des données tensorielles de sortie à partir de tâches de formation.

Le SDK [Amazon SageMaker AI Python est un SDK](https://sagemaker.readthedocs.io/en/stable/) de haut niveau axé sur l'expérimentation de l'apprentissage automatique. Le SDK peut être utilisé pour déployer des règles intégrées ou personnalisées définies avec la bibliothèque `SMDebug` Python afin de surveiller et d'analyser ces tenseurs à l'aide d'estimateurs basés sur l' SageMaker IA.

Debugger a ajouté des opérations et des types à l' SageMaker API Amazon qui permettent à la plateforme d'utiliser Debugger lors de l'entraînement d'un modèle et de gérer la configuration des entrées et des sorties. 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)et [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateTrainingJob.html)utilisez le débogueur suivant APIs pour configurer les collections de tenseurs, les règles, les images de règles et les options de profilage :
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CollectionConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CollectionConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TensorBoardOutputConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TensorBoardOutputConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) fournit une description complète d'une tâche d'entraînement, y compris les configurations Debugger et les statuts d'évaluation de règle suivants :
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleEvaluationStatus.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleEvaluationStatus.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleEvaluationStatus.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleEvaluationStatus.html)

Les opérations de l'API de configuration des règles utilisent la fonctionnalité SageMaker de traitement lors de l'analyse d'un modèle d'entraînement. Pour plus d'informations sur SageMaker le traitement, consultez[Charges de travail de transformation des données avec Processing SageMaker](processing-job.md).

## Images Docker pour les règles Debugger
<a name="debugger-docker-images-rules"></a>

Amazon SageMaker AI fournit deux ensembles d'images Docker pour les règles : un ensemble pour évaluer les règles fournies par l' SageMaker IA (règles intégrées) et un ensemble pour évaluer les règles personnalisées fournies dans les fichiers source Python. 

Si vous utilisez le [SDK Amazon SageMaker Python](https://sagemaker.readthedocs.io/en/stable), vous pouvez simplement utiliser les opérations de l'API Debugger de haut niveau de l' SageMaker IA avec les opérations de l'API SageMaker AI Estimator, sans avoir à récupérer manuellement les images Docker du Debugger et à configurer l'API. `ConfigureTrainingJob` 

Si vous n'utilisez pas le SDK SageMaker Python, vous devez récupérer une image de base de conteneur prédéfinie pertinente pour les règles du débogueur. Amazon SageMaker Debugger fournit des images Docker prédéfinies pour les règles intégrées et personnalisées, et les images sont stockées dans Amazon Elastic Container Registry (Amazon ECR). Pour extraire une image d'un référentiel Amazon ECR (ou pour transférer une image vers un référentiel), utilisez l'URL du registre des noms complets de l'image à l'aide de l'`CreateTrainingJob`API. SageMaker AI utilise les modèles d'URL suivants pour l'adresse de registre d'images du conteneur de règles Debugger. 

```
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
```

Pour connaître l'ID de compte dans chaque AWS région, le nom du référentiel Amazon ECR et la valeur du tag, consultez les rubriques suivantes.

**Topics**
+ [Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles intégrés](#debuger-built-in-registry-ids)
+ [Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles personnalisés](#debuger-custom-rule-registry-ids)

### Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles intégrés
<a name="debuger-built-in-registry-ids"></a>

Utilisez les valeurs suivantes pour les composants du registre URLs pour les images qui fournissent des règles intégrées pour Amazon SageMaker Debugger. Pour le compte IDs, consultez le tableau suivant.

**Nom du référentiel ECR** : sagemaker-debugger-rules 

**Balise** : la plus récente 

**Exemple d'une URL de registre complète** : 

`904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest`

Tenez compte IDs des images de conteneurs de règles intégrées par AWS région


| Région | account\$1id | 
| --- | --- | 
| af-south-1 |  314341159256  | 
| ap-east-1 |  199566480951  | 
| ap-northeast-1 |  430734990657   | 
| ap-northeast-2 |  578805364391  | 
| ap-south-1 |  904829902805  | 
| ap-southeast-1 |  972752614525  | 
| ap-southeast-2 |  184798709955  | 
| ca-central-1 |  519511493484  | 
| cn-north-1 |  618459771430  | 
| cn-northwest-1 |  658757709296  | 
| eu-central-1 |  482524230118  | 
| eu-north-1 |  314864569078  | 
| eu-south-1 |  563282790590  | 
| eu-west-1 |  929884845733  | 
| eu-west-2 |  250201462417  | 
| eu-west-3 |  447278800020  | 
| me-south-1 |  986000313247  | 
| sa-east-1 |  818342061345  | 
| us-east-1 |  503895931360  | 
| us-east-2 |  915447279597  | 
| us-west-1 |  685455198987  | 
| us-west-2 |  895741380848  | 
| us-gov-west-1 |  515509971035  | 

### Image Amazon SageMaker Debugger pour les évaluateurs URIs de règles personnalisés
<a name="debuger-custom-rule-registry-ids"></a>

Utilisez les valeurs suivantes pour les composants de l'URL de registre pour les images qui fournissent des évaluateurs de règles personnalisés pour Amazon SageMaker Debugger. Pour le compte IDs, consultez le tableau suivant.

**Nom du référentiel ECR** : sagemaker-debugger-rule-evaluator 

**Balise** : la plus récente 

**Exemple d'une URL de registre complète** : 

`552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest`

Tenez compte IDs des images du conteneur de règles personnalisées par AWS région


| Région | account\$1id | 
| --- | --- | 
| af-south-1 |  515950693465  | 
| ap-east-1 |  645844755771  | 
| ap-northeast-1 |  670969264625   | 
| ap-northeast-2 |  326368420253  | 
| ap-south-1 |  552407032007  | 
| ap-southeast-1 |  631532610101  | 
| ap-southeast-2 |  445670767460  | 
| ca-central-1 |  105842248657  | 
| cn-north-1 |  617202126805  | 
| cn-northwest-1 |  658559488188  | 
| eu-central-1 |  691764027602  | 
| eu-north-1 |  091235270104  | 
| eu-south-1 |  335033873580  | 
| eu-west-1 |  606966180310  | 
| eu-west-2 |  074613877050  | 
| eu-west-3 |  224335253976  | 
| me-south-1 |  050406412588  | 
| sa-east-1 |  466516958431  | 
| us-east-1 |  864354269164  | 
| us-east-2 |  840043622174  | 
| us-west-1 |  952348334681  | 
| us-west-2 |  759209512951  | 
| us-gov-west-1 |  515361955729  | 

## Exceptions relatives SageMaker à Amazon Debugger
<a name="debugger-exceptions"></a>

Amazon SageMaker Debugger est conçu pour tenir compte du fait que les tenseurs requis pour exécuter une règle peuvent ne pas être disponibles à chaque étape. Par conséquent, il génère des exceptions qui vous permettent de contrôler ce qui se passe s'il manque un tenseur. Ces exceptions sont disponibles dans le [module smdebug.exceptions](https://github.com/awslabs/sagemaker-debugger/blob/master/smdebug/exceptions.py). Vous pouvez les importer comme suit :

```
from smdebug.exceptions import *
```

Les exceptions suivantes sont disponibles :
+ `TensorUnavailableForStep` – le tenseur demandé n'est pas disponible pour l'étape. Cela peut signifier que cette étape peut ne pas être enregistrée par le hook ou qu'elle peut avoir enregistré certains tenseurs mais que le tenseur requis n'en fait pas partie. Si cette exception est générée, cela signifie que ce tenseur ne pourra jamais être disponible pour cette étape à l'avenir. Si le tenseur a enregistré des réductions pour l'étape, il vous informe qu'elles peuvent être interrogées.
+ `TensorUnavailable` – ce tenseur n'est pas enregistré ou n'a pas été enregistré par l'API `smdebug`. Cela signifie que ce tenseur n'est jamais détecté pour une étape dans `smdebug`.
+ `StepUnavailable` – l'étape n'a pas été enregistrée et Debugger ne contient aucune donnée de l'étape.
+ `StepNotYetAvailable` : l'étape n'a pas encore été détectée par `smdebug`. Elle pourrait être disponible à l'avenir si l'entraînement est toujours en cours. Debugger charge automatiquement les nouvelles données au fur et à mesure qu'elles deviennent disponibles.
+ `NoMoreData` – générée à la fin de l'entraînement. Si vous voyez cette exception, cela signifie qu'il n'y a plus d'étapes ni plus aucun tenseur à enregistrer.
+ `IndexReaderException` – le lecteur d'index n'est pas valide.
+ `InvalidWorker` – un composant non valide a été invoqué.
+ `RuleEvaluationConditionMet` – l'évaluation de la règle à l'étape a abouti à la « condition remplie ».
+ `InsufficientInformationForRuleInvocation` – les informations fournies sont insuffisantes pour appeler la règle.

## Formation distribuée prise en charge par Amazon SageMaker Debugger
<a name="debugger-considerations"></a>

La liste suivante présente les domaines de validité et les considérations relatives à l'utilisation de Debugger sur les tâches d'entraînement avec des cadres de deep learning et les différentes options d'entraînement distribué.
+ **Horovod**

  Domaine de validité de l'utilisation de Debugger pour les tâches d'entraînement avec Horovod    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/debugger-reference.html)
+ **SageMaker Données distribuées en parallèle grâce à l'IA**

  Portée de validité de l'utilisation de Debugger pour les tâches de formation avec SageMaker AI distributed data parallel    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/debugger-reference.html)

  \$1 Le débogueur ne prend pas en charge le profilage du framework pour TensorFlow 2.x.

  \$1\$1 SageMaker AI distributed data parallel ne prend pas en charge la version TensorFlow 2.x avec l'implémentation de Keras.
+ **SageMaker AI distributed model parallel** — Debugger ne prend pas en charge l'apprentissage parallèle de modèles distribués par SageMaker IA.
+ **Formation distribuée avec points de contrôle SageMaker AI** — Debugger n'est pas disponible pour les tâches de formation lorsque l'option de formation distribuée et les points de contrôle SageMaker AI sont activés. Une erreur semblable à ce qui suit peut s'afficher : 

  ```
  SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
  ```

  Pour utiliser Debugger pour des tâches de formation avec des options de formation distribuées, vous devez désactiver le point de contrôle SageMaker AI et ajouter des fonctions de pointage manuel à votre script d'entraînement. Pour plus d’informations sur l’utilisation de Debugger avec des options d’entraînement distribué et des points de contrôle, consultez [Utilisation de données distribuées par SageMaker IA en parallèle avec Amazon SageMaker Debugger et les points de contrôle](distributed-troubleshooting-data-parallel.md#distributed-ts-data-parallel-debugger) et [Sauvegarde des points de contrôle](distributed-troubleshooting-model-parallel.md#distributed-ts-model-parallel-checkpoints).
+ **Serveur de paramètres** – Debugger ne prend pas en charge l'entraînement distribué basé sur le serveur de paramètres.
+ Le profilage des opérations du framework d'entraînement distribué, telles que le `AllReduced` fonctionnement des [opérations SageMaker AI distributed data parallel et Horovod](https://horovod.readthedocs.io/en/stable/timeline_include.html), n'est pas disponible.