Referências do Amazon SageMaker Debugger - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referências do Amazon SageMaker Debugger

Encontre mais informações e referências sobre o uso do Amazon SageMaker Debugger nos tópicos a seguir.

SageMaker Depurador Amazon APIs

O Amazon SageMaker Debugger tem API operações em vários locais que são usadas para implementar seu monitoramento e análise do treinamento de modelos.

O Amazon SageMaker Debugger também fornece o sagemaker-debuggerPython de código aberto SDK que é usado para configurar regras integradas, definir regras personalizadas e registrar ganchos para coletar dados de tensores de saída de trabalhos de treinamento.

O Amazon SageMaker Python SDK é um serviço de alto nível SDK focado na experimentação de aprendizado de máquina. O SDK pode ser usado para implantar regras integradas ou personalizadas definidas com a biblioteca SMDebug Python para monitorar e analisar esses tensores usando estimadores. SageMaker

O Debugger adicionou operações e tipos à Amazon SageMaker API que permitem que a plataforma use o Debugger ao treinar um modelo e gerenciar a configuração de entradas e saídas.

As API operações de configuração de regras usam a funcionalidade SageMaker Processing ao analisar o treinamento de um modelo. Para obter mais informações sobre SageMaker processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .

Imagens do Docker para regras do Debugger

SageMaker A Amazon fornece dois conjuntos de imagens do Docker para regras: um conjunto para avaliar as regras fornecidas por SageMaker (regras integradas) e um conjunto para avaliar as regras personalizadas fornecidas nos arquivos de origem do Python.

Se você usa o Amazon SageMaker Python SDK, pode simplesmente usar operações de SageMaker alto nível do Debugger com API operações do SageMaker Estimator, sem precisar recuperar manualmente API as imagens do Debugger Docker e configurar o. ConfigureTrainingJob API

Se você não estiver usando o SageMaker PythonSDK, precisará recuperar uma imagem base de contêiner pré-criada relevante para as regras do Debugger. O Amazon SageMaker Debugger fornece imagens pré-criadas do Docker para regras incorporadas e personalizadas, e as imagens são armazenadas no Amazon Elastic Container Registry (Amazon). ECR Para extrair uma imagem de um ECR repositório da Amazon (ou enviar uma imagem para um), use o registro URL do nome completo da imagem usando o. CreateTrainingJob API SageMaker usa os seguintes URL padrões para o endereço de registro da imagem do contêiner da regra do Debugger.

<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>

Para o ID da conta em cada AWS região, o nome do ECR repositório da Amazon e o valor da tag, consulte os tópicos a seguir.

Imagem do Amazon SageMaker Debugger URIs para avaliadores de regras integrados

Use os seguintes valores para os componentes do registro das imagens que fornecem regras integradas URLs para o Amazon SageMaker Debugger. Para a contaIDs, consulte a tabela a seguir.

ECRNome do repositório: sagemaker-debugger-rules

Tag: mais recente

Exemplo de um registro completo URL:

904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest

Conta IDs para imagens de contêiner de regras integradas por AWS região

Região account_id
af-south-1

314341159256

ap-east-1

199566480951

ap-northeast-1

430734990657

ap-northeast-2

578805364391

ap-south-1

904829902805

ap-southeast-1

972752614525

ap-southeast-2

184798709955

ca-central-1

519511493484

cn-north-1

618459771430

cn-northwest-1

658757709296

eu-central-1

482524230118

eu-north-1

314864569078

eu-south-1

563282790590

eu-west-1

929884845733

eu-west-2

250201462417

eu-west-3

447278800020

me-south-1

986000313247

sa-east-1

818342061345

us-east-1

503895931360

us-east-2

915447279597

us-west-1

685455198987

us-west-2

895741380848

us-gov-west-1

515509971035

Imagem do Amazon SageMaker Debugger URIs para avaliadores de regras personalizadas

Use os seguintes valores para os componentes do registro URL das imagens que fornecem avaliadores de regras personalizados para o Amazon SageMaker Debugger. Para a contaIDs, consulte a tabela a seguir.

ECRNome do repositório: sagemaker-debugger-rule-evaluator

Tag: mais recente

Exemplo de um registro completo URL:

552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest

Conta IDs para imagens de contêiner de regras personalizadas por AWS região

Região account_id
af-south-1

515950693465

ap-east-1

645844755771

ap-northeast-1

670969264625

ap-northeast-2

326368420253

ap-south-1

552407032007

ap-southeast-1

631532610101

ap-southeast-2

445670767460

ca-central-1

105842248657

cn-north-1

617202126805

cn-northwest-1

658559488188

eu-central-1

691764027602

eu-north-1

091235270104

eu-south-1

335033873580

eu-west-1

606966180310

eu-west-2

074613877050

eu-west-3

224335253976

me-south-1

050406412588

sa-east-1

466516958431

us-east-1

864354269164

us-east-2

840043622174

us-west-1

952348334681

us-west-2

759209512951

us-gov-west-1

515361955729

Exceções do Amazon SageMaker Debugger

O Amazon SageMaker Debugger foi projetado para estar ciente de que os tensores necessários para executar uma regra podem não estar disponíveis em todas as etapas. Como resultado, ele abre algumas exceções que permitem que você controle o que acontece quando um tensor está ausente. Essas exceções estão disponíveis no módulo smdebug.exceptions. É possível importá-los da seguinte maneira:

from smdebug.exceptions import *

As seguintes exceções estão disponíveis:

  • TensorUnavailableForStep – O tensor solicitado não está disponível para a etapa. Isso pode significar que essa etapa pode não ser salva pelo gancho, ou que essa etapa pode ter salvo alguns tensores, mas o tensor solicitado não faz parte deles. Observe que quando você vê essa exceção, isso significa que esse tensor pode nunca ficar disponível para essa etapa no futuro. Se o tensor tiver reduções salvas para a etapa, ele notificará que elas podem ser consultadas.

  • TensorUnavailable— Este tensor não está sendo salvo ou não foi salvo pelo smdebugAPI. Isso significa que esse tensor nunca é visto para nenhuma etapa na smdebug.

  • StepUnavailable – A etapa não foi salva e o Depurador não tem os dados da etapa.

  • StepNotYetAvailable – A etapa ainda não foi vista por smdebug. Pode estar disponível no futuro se o treinamento ainda estiver em andamento. O Depurador carrega automaticamente novos dados assim que se tornam disponíveis.

  • NoMoreData – Gerado quando o treinamento termina. Ao ver isso, você saberá que não há mais etapas e nem tensores a serem salvos.

  • IndexReaderException – O leitor de índice não é válido.

  • InvalidWorker – Um operador que não era válido foi invocado.

  • RuleEvaluationConditionMet – A avaliação da regra na etapa resultou no cumprimento da condição.

  • InsufficientInformationForRuleInvocation – Informações insuficientes foram fornecidas para invocar a regra.

Treinamento distribuído suportado pelo Amazon SageMaker Debugger

A listagem a seguir mostra o escopo de validade e as considerações sobre o uso do Depurador em trabalhos de treinamento com frameworks de aprendizado profundo e várias opções de treinamento distribuído.

  • Horovod

    Escopo de validade do uso do Depurador para trabalhos de treinamento com Horovod

    Frameworks de aprendizado profundo Apache MXNet TensorFlow 1.x TensorFlow 2. x TensorFlow 2.x com Keras PyTorch
    Gargalos do sistema de monitoramento Sim Sim Sim Sim Sim
    Operações de framework perfilador Não Não Não Sim Sim
    Tensores de saída do modelo de depuração Sim Sim Sim Sim Sim
  • SageMaker dados distribuídos paralelamente

    Escopo de validade do uso do Debugger para trabalhos de treinamento com SageMaker dados distribuídos paralelamente

    Frameworks de aprendizado profundo TensorFlow 2. x TensorFlow 2.x com Keras PyTorch
    Gargalos do sistema de monitoramento Sim Sim Sim
    Operações de framework perfilador Não* Não* Sim
    Tensores de saída do modelo de depuração Sim Sim Sim

    * O depurador não oferece suporte à criação de perfis de estrutura para 2.x. TensorFlow

    ** SageMaker distributed data parallel não suporta TensorFlow 2.x com a implementação do Keras.

  • SageMaker distributed model parallel — O Debugger não oferece suporte ao treinamento paralelo de SageMaker modelos distribuídos.

  • Treinamento distribuído com SageMaker pontos de verificação — O Debugger não está disponível para trabalhos de treinamento quando a opção de treinamento distribuído e SageMaker os pontos de verificação estão habilitados. Você verá um erro parecido com o seguinte:

    SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled

    Para usar o Debugger para trabalhos de treinamento com opções de treinamento distribuídas, você precisa desativar o ponto de SageMaker verificação e adicionar funções de ponto de verificação manual ao seu script de treinamento. Para obter mais informações sobre como usar o Depurador com opções de treinamento e pontos de verificação distribuídos, consulte Usando dados SageMaker distribuídos paralelamente com o Amazon SageMaker Debugger e os pontos de verificação e Salvando pontos de verificação.

  • Servidor de parâmetros – O depurador não oferece suporte ao treinamento distribuído baseado em servidor de parâmetros.

  • O perfil das operações da estrutura de treinamento distribuído, como a AllReduced operação paralela de dados SageMaker distribuídos e as operações do Horovod, não está disponível.