

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Amazon SageMaker Debugger-Referenzen
<a name="debugger-reference"></a>

Weitere Informationen und Referenzen zur Verwendung von Amazon SageMaker Debugger finden Sie in den folgenden Themen.

**Topics**
+ [SageMaker Amazon-Debugger APIs](#debugger-apis)
+ [Docker-Images für Debugger-Regeln](#debugger-docker-images-rules)
+ [Amazon SageMaker Debugger-Ausnahmen](#debugger-exceptions)
+ [Verteilte Schulungen, unterstützt von Amazon SageMaker Debugger](#debugger-considerations)

## SageMaker Amazon-Debugger APIs
<a name="debugger-apis"></a>

Amazon SageMaker Debugger verfügt über API-Operationen an mehreren Standorten, die zur Implementierung der Überwachung und Analyse des Modelltrainings verwendet werden.

Amazon SageMaker Debugger bietet auch das [`sagemaker-debugger`Open-Source-Python-SDK](https://github.com/awslabs/sagemaker-debugger/tree/master/smdebug), mit dem integrierte Regeln konfiguriert, benutzerdefinierte Regeln definiert und Hooks registriert werden, um Ausgangstensordaten von Trainingsjobs zu sammeln.

Das [Amazon SageMaker AI Python SDK](https://sagemaker.readthedocs.io/en/stable/) ist ein High-Level-SDK, das sich auf Experimente mit maschinellem Lernen konzentriert. Das SDK kann verwendet werden, um integrierte oder benutzerdefinierte Regeln bereitzustellen, die mit der `SMDebug` Python-Bibliothek definiert wurden, um diese Tensoren mithilfe von SageMaker KI-Schätzern zu überwachen und zu analysieren.

Debugger hat der SageMaker Amazon-API Operationen und Typen hinzugefügt, die es der Plattform ermöglichen, Debugger beim Trainieren eines Modells zu verwenden und die Konfiguration von Eingaben und Ausgaben zu verwalten. 
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateTrainingJob.html)und [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateTrainingJob.html)verwenden Sie den folgenden Debugger APIs , um Tensorsammlungen, Regeln, Regelbilder und Profilerstellungsoptionen zu konfigurieren:
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CollectionConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CollectionConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TensorBoardOutputConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_TensorBoardOutputConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html)
+ [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) bietet eine vollständige Beschreibung eines Trainingsauftrags, einschließlich der folgenden Debugger-Konfigurationen und Status der Regelauswertung:
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugHookConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleEvaluationStatus.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DebugRuleEvaluationStatus.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerConfig.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleConfiguration.html)
  + [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleEvaluationStatus.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProfilerRuleEvaluationStatus.html)

Die API-Operationen zur Regelkonfiguration verwenden die SageMaker Verarbeitungsfunktion bei der Analyse eines Modelltrainings. Weitere Informationen zur SageMaker Verarbeitung finden Sie unter[Workloads zur Datentransformation mit SageMaker Verarbeitung](processing-job.md).

## Docker-Images für Debugger-Regeln
<a name="debugger-docker-images-rules"></a>

Amazon SageMaker AI bietet zwei Sätze von Docker-Images für Regeln: einen Satz für die Auswertung von Regeln, die von SageMaker KI bereitgestellt werden (integrierte Regeln) und einen Satz für die Auswertung von benutzerdefinierten Regeln, die in Python-Quelldateien bereitgestellt werden. 

Wenn Sie das [Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable) verwenden, können Sie einfach SageMaker KI-Debugger-API-Operationen auf hoher Ebene mit SageMaker AI Estimator-API-Operationen verwenden, ohne die Debugger-Docker-Images manuell abrufen und die API konfigurieren zu müssen. `ConfigureTrainingJob` 

Wenn Sie das SageMaker Python-SDK nicht verwenden, müssen Sie ein entsprechendes vorgefertigtes Container-Basis-Image für die Debugger-Regeln abrufen. Amazon SageMaker Debugger stellt vorgefertigte Docker-Images für integrierte und benutzerdefinierte Regeln bereit. Die Bilder werden in Amazon Elastic Container Registry (Amazon ECR) gespeichert. Um ein Bild aus einem Amazon ECR-Repository abzurufen (oder ein Bild in eines zu übertragen), verwenden Sie die vollständige Registrierungs-URL des Images mithilfe der `CreateTrainingJob` API. SageMaker AI verwendet die folgenden URL-Muster für die Image-Registrierungsadresse des Debugger-Regelcontainers. 

```
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
```

Die Konto-ID in jeder AWS Region, den Namen des Amazon ECR-Repositorys und den Tag-Wert finden Sie in den folgenden Themen.

**Topics**
+ [Amazon SageMaker Debugger-Image URIs für integrierte Regelauswerter](#debuger-built-in-registry-ids)
+ [Amazon SageMaker Debugger-Image URIs für benutzerdefinierte Regelauswerter](#debuger-custom-rule-registry-ids)

### Amazon SageMaker Debugger-Image URIs für integrierte Regelauswerter
<a name="debuger-built-in-registry-ids"></a>

Verwenden Sie die folgenden Werte für die Komponenten der Registrierung URLs für die Images, die integrierte Regeln für Amazon SageMaker Debugger bereitstellen. Informationen zum Konto IDs finden Sie in der folgenden Tabelle.

**Name des ECR-Repositorys:** sagemaker-debugger-rules 

**Tag**: neuestes 

**Beispiel für eine vollständige Registrierungs-URL**: 

`904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest`

Konto IDs für Container-Images mit integrierten Regeln nach Region AWS 


| Region | account\$1id | 
| --- | --- | 
| af-south-1 |  314341159256  | 
| ap-east-1 |  199566480951  | 
| ap-northeast-1 |  430734990657   | 
| ap-northeast-2 |  578805364391  | 
| ap-south-1 |  904829902805  | 
| ap-southeast-1 |  972752614525  | 
| ap-southeast-2 |  184798709955  | 
| ca-central-1 |  519511493484  | 
| cn-north-1 |  618459771430  | 
| cn-northwest-1 |  658757709296  | 
| eu-central-1 |  482524230118  | 
| eu-north-1 |  314864569078  | 
| eu-south-1 |  563282790590  | 
| eu-west-1 |  929884845733  | 
| eu-west-2 |  250201462417  | 
| eu-west-3 |  447278800020  | 
| me-south-1 |  986000313247  | 
| sa-east-1 |  818342061345  | 
| us-east-1 |  503895931360  | 
| us-east-2 |  915447279597  | 
| us-west-1 |  685455198987  | 
| us-west-2 |  895741380848  | 
| us-gov-west-1 |  515509971035  | 

### Amazon SageMaker Debugger-Image URIs für benutzerdefinierte Regelauswerter
<a name="debuger-custom-rule-registry-ids"></a>

Verwenden Sie die folgenden Werte für die Komponenten der Registrierungs-URL für die Bilder, die benutzerdefinierte Regelauswertungen für Amazon SageMaker Debugger bereitstellen. Informationen zum Konto IDs finden Sie in der folgenden Tabelle.

**Name des ECR-Repositorys:** sagemaker-debugger-rule-evaluator 

**Tag**: neuestes 

**Beispiel für eine vollständige Registrierungs-URL**: 

`552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest`

Konto IDs für Container-Images mit benutzerdefinierten Regeln nach Region AWS 


| Region | account\$1id | 
| --- | --- | 
| af-south-1 |  515950693465  | 
| ap-east-1 |  645844755771  | 
| ap-northeast-1 |  670969264625   | 
| ap-northeast-2 |  326368420253  | 
| ap-south-1 |  552407032007  | 
| ap-southeast-1 |  631532610101  | 
| ap-southeast-2 |  445670767460  | 
| ca-central-1 |  105842248657  | 
| cn-north-1 |  617202126805  | 
| cn-northwest-1 |  658559488188  | 
| eu-central-1 |  691764027602  | 
| eu-north-1 |  091235270104  | 
| eu-south-1 |  335033873580  | 
| eu-west-1 |  606966180310  | 
| eu-west-2 |  074613877050  | 
| eu-west-3 |  224335253976  | 
| me-south-1 |  050406412588  | 
| sa-east-1 |  466516958431  | 
| us-east-1 |  864354269164  | 
| us-east-2 |  840043622174  | 
| us-west-1 |  952348334681  | 
| us-west-2 |  759209512951  | 
| us-gov-west-1 |  515361955729  | 

## Amazon SageMaker Debugger-Ausnahmen
<a name="debugger-exceptions"></a>

Amazon SageMaker Debugger wurde entwickelt, um zu berücksichtigen, dass Tensoren, die zur Ausführung einer Regel erforderlich sind, möglicherweise nicht bei jedem Schritt verfügbar sind. Infolgedessen werden einige Ausnahmen ausgelöst, mit denen Sie kontrollieren können, was passiert, wenn ein Tensor fehlt. Diese Ausnahmen sind im [Modul smdebug.exceptions](https://github.com/awslabs/sagemaker-debugger/blob/master/smdebug/exceptions.py) verfügbar. Sie können sie wie folgt importieren:

```
from smdebug.exceptions import *
```

Folgende Ausnahmen sind verfügbar:
+ `TensorUnavailableForStep` – Der angeforderte Tensor ist für diesen Schritt nicht verfügbar. Dies könnte bedeuten, dass dieser Schritt möglicherweise nicht durch den Hook gespeichert wird oder dass dieser Schritt zwar einige Tensoren gespeichert hat, der angeforderte Tensor aber nicht dazugehört. Wenn diese Ausnahme angezeigt wird, bedeutet dies, dass dieser Tensor zukünftig niemals für diesen Schritt verfügbar werden kann. Wenn für den Tensor Reduktionen für den Schritt gespeichert wurden, wird Ihnen mitgeteilt, dass sie abgefragt werden können.
+ `TensorUnavailable` – Dieser Tensor wird nicht gespeichert oder wurde von der `smdebug` API nicht gespeichert. Dies bedeutet, dass dieser Tensor für keinen Schritt in `smdebug` zu sehen ist.
+ `StepUnavailable` – Der Schritt wurde nicht gespeichert und der Debugger hat keine Daten aus diesem Schritt.
+ `StepNotYetAvailable` – Der Schritt wurde von `smdebug` noch nicht gesehen. Es könnte in der Zukunft verfügbar sein, wenn das Training noch andauert. Debugger lädt automatisch neue Daten, sobald sie verfügbar sind.
+ `NoMoreData` – Erhöht, wenn das Training endet. Sobald dies zu sehen ist, sind keine weiteren zu speichernde Schritte und Tensoren vorhanden.
+ `IndexReaderException` – Der Indexleser ist ungültig.
+ `InvalidWorker` – Es wurde ein ungültiger Auftragnehmer aufgerufen.
+ `RuleEvaluationConditionMet` – Die Auswertung der Regel im Schritt führte dazu, dass die Bedingung erfüllt wurde.
+ `InsufficientInformationForRuleInvocation` – Es wurden nicht genügend Informationen bereitgestellt, um die Regel aufzurufen.

## Verteilte Schulungen, unterstützt von Amazon SageMaker Debugger
<a name="debugger-considerations"></a>

Die folgende Liste zeigt den Gültigkeitsbereich und die Überlegungen zur Verwendung von Debugger für Trainingsaufträge mit Deep-Learning-Frameworks und verschiedenen verteilten Trainingsoptionen.
+ **Horovod**

  Gültigkeitsbereich der Verwendung von Debugger für Trainingsaufträge mit Horovod    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/debugger-reference.html)
+ **SageMaker KI verteilte Daten parallel**

  Gültigkeitsbereich der Verwendung von Debugger für Trainingsjobs mit parallel verteilten SageMaker KI-Daten    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/sagemaker/latest/dg/debugger-reference.html)

  \$1 Der Debugger unterstützt kein Framework-Profiling für 2.x. TensorFlow 

  \$1\$1 SageMaker AI Distributed Data Parallel unterstützt TensorFlow 2.x mit Keras-Implementierung nicht.
+ **SageMaker Paralleles KI-verteiltes Modell** — Der Debugger unterstützt kein paralleles Training für verteilte SageMaker KI-Modelle.
+ **Verteiltes Training mit SageMaker KI-Checkpoints** — Der Debugger ist nicht für Trainingsjobs verfügbar, wenn sowohl die verteilte Trainingsoption als auch die SageMaker KI-Checkpoints aktiviert sind. Möglicherweise wird ein Fehler angezeigt, der wie folgt aussieht: 

  ```
  SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
  ```

  Um den Debugger für Trainingsjobs mit verteilten Trainingsoptionen zu verwenden, müssen Sie das SageMaker KI-Checkpointing deaktivieren und Ihrem Trainingsskript manuelle Checkpoint-Funktionen hinzufügen. Mehr Informationen über die Verwendung des Debuggers mit verteilten Trainingsoptionen und Prüfpunkte finden Sie unter [Verwendung von verteilten SageMaker KI-Daten parallel zu Amazon SageMaker Debugger und Checkpoints](distributed-troubleshooting-data-parallel.md#distributed-ts-data-parallel-debugger) und [Speichern von Prüfpunkten](distributed-troubleshooting-model-parallel.md#distributed-ts-model-parallel-checkpoints).
+ **Parameterserver** – Der Debugger unterstützt kein auf Parameterservern basierendes verteiltes Training.
+ Die Profilierung verteilter Trainingsrahmenoperationen, wie z. B. der parallel `AllReduced` Betrieb von verteilten SageMaker KI-Daten und [Horovod-Operationen](https://horovod.readthedocs.io/en/stable/timeline_include.html), ist nicht verfügbar.