Referencias de Amazon SageMaker Debugger - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Referencias de Amazon SageMaker Debugger

Encontrará más información y referencias sobre el uso de Amazon SageMaker Debugger en los siguientes temas.

Amazon SageMaker Debugger APIs

Amazon SageMaker Debugger API opera en varios lugares que se utilizan para implementar la supervisión y el análisis del entrenamiento de modelos.

Amazon SageMaker Debugger también proporciona sagemaker-debuggerPython de código abierto SDK que se utiliza para configurar reglas integradas, definir reglas personalizadas y registrar enlaces para recopilar datos de tensores de salida de los trabajos de entrenamiento.

Amazon SageMaker Python SDK es un sistema de alto nivel SDK centrado en la experimentación con aprendizaje automático. SDKSe puede usar para implementar reglas integradas o personalizadas definidas con la biblioteca de SMDebug Python para monitorear y analizar estos tensores mediante SageMaker estimadores.

Debugger ha agregado operaciones y tipos a Amazon SageMaker API que permiten a la plataforma usar Debugger al entrenar un modelo y administrar la configuración de entradas y salidas.

Las API operaciones de configuración de reglas utilizan la funcionalidad de SageMaker procesamiento al analizar el entrenamiento de un modelo. Para obtener más información sobre SageMaker el procesamiento, consulteCargas de trabajo de transformación de datos con procesamiento SageMaker .

Imágenes de Docker para las reglas del depurador

Amazon SageMaker proporciona dos conjuntos de imágenes de Docker para las reglas: un conjunto para evaluar las reglas proporcionadas por SageMaker (reglas integradas) y otro conjunto para evaluar las reglas personalizadas proporcionadas en los archivos fuente de Python.

Si utiliza Amazon SageMaker Python SDK, simplemente puede utilizar operaciones del depurador de SageMaker alto nivel con API las operaciones del SageMaker estimador, sin tener que recuperar manualmente API las imágenes de Docker del depurador y configurar el. ConfigureTrainingJob API

Si no está utilizando SageMaker PythonSDK, debe recuperar una imagen base de contenedor prediseñada relevante para las reglas del depurador. Amazon SageMaker Debugger proporciona imágenes de Docker prediseñadas para reglas integradas y personalizadas, y las imágenes se almacenan en Amazon Elastic Container Registry (Amazon). ECR Para extraer una imagen de un ECR repositorio de Amazon (o para enviar una imagen a uno de ellos), usa el registro URL del nombre completo de la imagen usando CreateTrainingJobAPI. SageMaker utiliza los siguientes URL patrones para la dirección de registro de imágenes del contenedor de reglas del depurador.

<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>

Para conocer el ID de cuenta de cada AWS región, el nombre del ECR repositorio de Amazon y el valor de la etiqueta, consulta los siguientes temas.

Imagen de Amazon SageMaker Debugger URIs para evaluadores de reglas integrados

Utilice los siguientes valores para los componentes del registro URLs de las imágenes que proporcionan reglas integradas para Amazon SageMaker Debugger. Para obtener información sobre la cuentaIDs, consulte la siguiente tabla.

ECRNombre del repositorio: sagemaker-debugger-rules

Etiqueta: última

Ejemplo de registro completo URL:

904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest

Tenga en cuenta IDs las imágenes del contenedor de reglas integradas por AWS región

Región account_id
af-south-1

314341159256

ap-east-1

199566480951

ap-northeast-1

430734990657

ap-northeast-2

578805364391

ap-south-1

904829902805

ap-southeast-1

972752614525

ap-southeast-2

184798709955

ca-central-1

519511493484

cn-north-1

618459771430

cn-northwest-1

658757709296

eu-central-1

482524230118

eu-north-1

314864569078

eu-south-1

563282790590

eu-west-1

929884845733

eu-west-2

250201462417

eu-west-3

447278800020

me-south-1

986000313247

sa-east-1

818342061345

us-east-1

503895931360

us-east-2

915447279597

us-west-1

685455198987

us-west-2

895741380848

us-gov-west-1

515509971035

Imagen de Amazon SageMaker Debugger URIs para evaluadores de reglas personalizados

Utilice los siguientes valores para los componentes del registro URL de las imágenes que proporcionan evaluadores de reglas personalizados para Amazon SageMaker Debugger. Para obtener información sobre IDs la cuenta, consulte la siguiente tabla.

ECRNombre del repositorio: sagemaker-debugger-rule-evaluator

Etiqueta: última

Ejemplo de registro completo URL:

552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest

Tenga en cuenta IDs las imágenes del contenedor de reglas personalizadas por AWS región

Región account_id
af-south-1

515950693465

ap-east-1

645844755771

ap-northeast-1

670969264625

ap-northeast-2

326368420253

ap-south-1

552407032007

ap-southeast-1

631532610101

ap-southeast-2

445670767460

ca-central-1

105842248657

cn-north-1

617202126805

cn-northwest-1

658559488188

eu-central-1

691764027602

eu-north-1

091235270104

eu-south-1

335033873580

eu-west-1

606966180310

eu-west-2

074613877050

eu-west-3

224335253976

me-south-1

050406412588

sa-east-1

466516958431

us-east-1

864354269164

us-east-2

840043622174

us-west-1

952348334681

us-west-2

759209512951

us-gov-west-1

515361955729

Excepciones de Amazon SageMaker Debugger

Amazon SageMaker Debugger está diseñado para tener en cuenta que es posible que los tensores necesarios para ejecutar una regla no estén disponibles en todos los pasos. Como resultado, plantea algunas excepciones que le permiten controlar lo que sucede cuando falta un tensor. Estas excepciones están disponibles en el módulo smdebug.exceptions. Puede importarlos de la siguiente manera:

from smdebug.exceptions import *

Están disponibles las siguientes excepciones:

  • TensorUnavailableForStep: el tensor solicitado no está disponible para el paso. Esto podría significar que el enlace podría no guardar este paso o que este paso podría haber guardado algunos tensores pero el tensor solicitado no forma parte de ellos. Tenga en cuenta que cuando vea esta excepción, significa que este tensor nunca podrá estar disponible para este paso en el futuro. Si el tensor tiene reducciones guardadas para el paso, le notifica que se pueden consultar.

  • TensorUnavailable— Este tensor no se guarda o no lo ha guardado el. smdebug API Esto significa que este tensor nunca se verá para ningún paso en smdebug.

  • StepUnavailable: el paso no se guardó y el depurador no tiene datos del paso.

  • StepNotYetAvailable: smdebug aún no ha visto el paso. Es posible que esté disponible en el futuro si el entrenamiento aún continúa. El depurador carga automáticamente los datos nuevos en cuanto están disponibles.

  • NoMoreData: se planteó cuando termina el entrenamiento. Una vez que vea esto, sabe que no hay más pasos y no hay más tensores que guardar.

  • IndexReaderException: el lector de índices no es válido.

  • InvalidWorker: se invocó un trabajador que no era válido.

  • RuleEvaluationConditionMet: la evaluación de la regla en el paso dio lugar a que se cumpliera la condición.

  • InsufficientInformationForRuleInvocation: no se proporcionó suficiente información para invocar la regla.

Capacitación distribuida respaldada por Amazon SageMaker Debugger

La siguiente lista muestra el alcance de la validez y las consideraciones a la hora de utilizar el depurador en trabajos de entrenamiento con marcos de aprendizaje profundo y diversas opciones de entrenamiento distribuido.

  • Horovod

    Ámbito de validez del uso del depurador para trabajos de entrenamiento con Horovod

    Marco de aprendizaje profundo Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x con Keras PyTorch
    Cuellos de botella del sistema de monitorización
    Operaciones del marco de creación de perfiles No No No
    Depuración de tensores de salida de modelos
  • SageMaker datos distribuidos en paralelo

    Alcance de validez del uso de Debugger para trabajos de entrenamiento con datos SageMaker distribuidos en paralelo

    Marco de aprendizaje profundo TensorFlow 2.x TensorFlow 2.x con Keras PyTorch
    Cuellos de botella del sistema de monitorización
    Operaciones del marco de creación de perfiles No* No**
    Depuración de tensores de salida de modelos

    * El depurador no admite la creación de perfiles de framework para la versión 2.x. TensorFlow

    ** SageMaker distributed data parallel no admite la versión TensorFlow 2.x con la implementación de Keras.

  • SageMaker modelo distribuido paralelo: el depurador no admite el entrenamiento en paralelo de modelos SageMaker distribuidos.

  • Formación distribuida con SageMaker puntos de control: el depurador no está disponible para los trabajos de formación cuando están habilitados tanto la opción de formación distribuida como los puntos de SageMaker control. Es posible que aparezca un error como el siguiente:

    SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled

    Para utilizar Debugger para tareas de formación con opciones de formación distribuidas, debe desactivar los puntos de control y añadir funciones de SageMaker puntos de control manuales a su guion de formación. Para obtener más información sobre el uso del depurador con opciones de entrenamiento y puntos de control distribuidos, consulte Uso de datos SageMaker distribuidos en paralelo con Amazon SageMaker Debugger y puntos de control y Guardar puntos de control.

  • Servidor de parámetros: el depurador no admite el entrenamiento distribuido basado en un servidor de parámetros.

  • La creación de perfiles de las operaciones del marco de entrenamiento distribuido, como la AllReduced operación de datos SageMaker distribuidos en paralelo y las operaciones Horovod, no está disponible.