Crie o perfil e otimize o desempenho computacional - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie o perfil e otimize o desempenho computacional

Ao treinar modelos de aprendizado state-of-the-art profundo que crescem rapidamente em tamanho, escalar o trabalho de treinamento desses modelos para um grande cluster de GPU e identificar problemas de desempenho computacional de bilhões e trilhões de operações e comunicações em cada iteração do processo de gradiente descendente se torna um desafio.

SageMaker fornece ferramentas de criação de perfil para visualizar e diagnosticar esses problemas complexos de computação decorrentes da execução de trabalhos de treinamento em recursos de computação em nuvem. AWS Há duas opções de criação de perfil que SageMaker oferecem: Amazon SageMaker Profiler e um monitor de utilização de recursos no Amazon Studio Classic. SageMaker Veja as seguintes introduções das duas funcionalidades para obter quick Insights e saber qual delas usar de acordo com suas necessidades.

Amazon SageMaker Profiler

O Amazon SageMaker Profiler é um recurso de criação de perfil SageMaker com o qual você pode se aprofundar nos recursos computacionais provisionados enquanto treina modelos de aprendizado profundo e obter visibilidade dos detalhes em nível operacional. SageMaker O Profiler fornece módulos Python para adicionar anotações em PyTorch todos TensorFlow os scripts de treinamento e ativar o Profiler. SageMaker Você pode acessar os módulos por meio do SageMaker Python SDK e do AWS Deep Learning Containers.

Com o SageMaker Profiler, você pode rastrear todas as atividades em CPUs e GPUs, como utilizações de CPU e GPU, execuções de kernel em GPUs, inicializações de kernel em CPUs, operações de sincronização, operações de memória em CPUs e GPUs, latências entre inicializações de kernel e execuções correspondentes e transferência de dados entre CPUs e GPUs.

SageMaker O Profiler também oferece uma interface de usuário (UI) que visualiza o perfil, um resumo estatístico dos eventos perfilados e a linha do tempo de um trabalho de treinamento para rastrear e entender a relação temporal dos eventos entre GPUs e CPUs.

Para saber mais sobre o SageMaker Profiler, consulteAmazon SageMaker Profiler.

Monitoramento de recursos AWS computacionais no Amazon SageMaker Studio Classic

SageMaker também fornece uma interface de usuário no Studio Classic para monitorar a utilização de recursos em alto nível, mas com mais granularidade em comparação com as métricas de utilização padrão coletadas de a. SageMaker CloudWatch

Para qualquer trabalho de treinamento executado SageMaker usando o SDK do SageMaker Python, SageMaker comece a traçar o perfil de métricas básicas de utilização de recursos, como utilização da CPU, utilização da GPU, utilização da memória da GPU, rede e tempo de espera de E/S. Ele coleta essas métricas de utilização de recursos a cada 500 milissegundos.

Em comparação com CloudWatch as métricas da Amazon, que coletam métricas em intervalos de 1 segundo, a funcionalidade de monitoramento SageMaker fornece maior granularidade nas métricas de utilização de recursos em intervalos de até 100 milissegundos (0,1 segundo), para que você possa se aprofundar nas métricas no nível de uma operação ou etapa.

Para acessar o painel para monitorar as métricas de utilização de recursos de um trabalho de treinamento, consulte a interface do usuário do SageMaker Debugger no Studio Experiments. SageMaker