Resumo do trabalho de treinamento Estatísticas de uso do sistema Resumo das métricas do framework Resumo das regras Analisando o ciclo de treinamento: durações das etapas Análise de utilização da GPU Tamanho do lote Problemas com a CPU Problemas de E/S Balanceamento de carga no treinamento com várias GPUs Análise de memória da GPU

Passo a passo do relatório de criação de perfil do Debugger

Esta seção o orienta no relatório de criação de perfil do Depurador, seção por seção. O relatório de criação de perfil é gerado baseado nas regras integradas para monitoramento e criação de perfil. O relatório mostra gráficos de resultados somente para as regras que encontraram problemas.

Importante

No relatório, os gráficos e as recomendações são fornecidos para fins informativos e não são definitivos. Você é responsável por fazer sua própria avaliação independente das informações.

Tópicos

Resumo do trabalho de treinamento
Estatísticas de uso do sistema
Resumo das métricas do framework
Resumo das regras
Analisando o ciclo de treinamento: durações das etapas
Análise de utilização da GPU
Tamanho do lote
Problemas com a CPU
Problemas de E/S
Balanceamento de carga no treinamento com várias GPUs
Análise de memória da GPU

Resumo do trabalho de treinamento

No início do relatório, o Debugger fornece um resumo do seu trabalho de treinamento. Nesta seção, você pode ter uma visão geral das durações e dos registros de data e hora em diferentes fases do treinamento.

Um exemplo do relatório de criação de perfil do Debugger

A tabela do resumo contém as seguintes informações:

start_time: A hora exata em que o trabalho de treinamento começou.
end_time: A hora exata em que o trabalho de treinamento foi concluído.
job_duration_in_seconds: O tempo total de treinamento do horário_inicial até o horário_final.
training_loop_start: A hora exata em que a primeira etapa da primeira época começou.
training_loop_start: A hora exata em que a primeira etapa da primeira época começou.
training_loop_duration_in_seconds: O tempo total entre a hora de início do ciclo de treinamento e a hora de término do ciclo de treinamento.
initialization_in_seconds: Tempo gasto na inicialização do trabalho de treinamento. A fase de inicialização abrange o período entre o start_time e o training_loop_start time. O tempo de inicialização é gasto na compilação do script de treinamento, na inicialização do script de treinamento, na criação e na inicialização do modelo, na inicialização de EC2 instâncias e no download dos dados de treinamento.
finalization_in_seconds — Tempo gasto na finalização do trabalho de treinamento, como finalizar o treinamento do modelo, atualizar os artefatos do modelo e fechar as instâncias. EC2 A fase de finalização abrange o período desde o momento training_loop_end ao end_time.
inicialização (%): A porcentagem de tempo gasto na inicialização sobre o total de job_duration_in_seconds.
ciclo de treinamento (%): A porcentagem de tempo gasto no ciclo de treinamento sobre o total de job_duration_in_seconds.
finalização (%): A porcentagem de tempo gasto na finalização sobre o total de job_duration_in_seconds.

Estatísticas de uso do sistema

Nesta seção, você pode ver uma visão geral das estatísticas de utilização do sistema.

O relatório de criação de perfil inclui as seguintes informações:

nó: Lista o nome dos nós. Se estiver usando treinamento distribuído em vários nós (várias EC2 instâncias), os nomes dos nós estão no formato dealgo-n.
métrica: As métricas do sistema coletadas pelo Debugger: CPU, GPU, memória da CPU, memória da GPU, E/S e métricas de rede.
unidade: A unidade das métricas do sistema.
max: O valor máximo de cada métrica do sistema.
p99: O 99º percentil de cada utilização do sistema.
p95: O 95º percentil de cada utilização do sistema.
p50: O 50º percentil (médio) de cada utilização do sistema.
min: O valor mínimo de cada métrica do sistema.

Resumo das métricas do framework

Nesta seção, os gráficos circulares a seguir mostram o detalhamento das operações da estrutura em CPUs GPUs e.

Cada um dos gráficos circulares analisa as métricas da framework coletadas em vários aspectos, da seguinte forma:

Proporção entre a fase TRAIN/EVAL e outras: Mostra a proporção entre as durações de tempo gastas em diferentes fases de treinamento.
Razão entre passe para frente e para trás: Mostra a proporção entre as durações de tempo gastas no passe para frente e para trás no ciclo de treinamento.
Proporção entre operadores de CPU/GPU: Mostra a proporção entre o tempo gasto em operadores executados em CPU ou GPU, como operadores convolucionais.
Métricas gerais registradas na framework: Mostra a proporção entre o tempo gasto nas principais métricas da framework, como carregamento de dados, avanço e retrocesso.

Visão geral: operadores de CPU

Esta seção fornece informações detalhadas sobre os operadores da CPU. A tabela mostra a porcentagem do tempo e o tempo cumulativo absoluto gasto nos operadores de CPU mais frequentemente chamados.

Visão geral: operadores de GPU

Esta seção fornece informações detalhadas sobre os operadores de GPU. A tabela mostra a porcentagem de tempo e o tempo acumulado absoluto gasto nos operadores de GPU chamados com mais frequência.

Resumo das regras

Nesta seção, o Debugger agrega todos os resultados da avaliação de regras, análises, descrições de regras e sugestões.

Analisando o ciclo de treinamento: durações das etapas

Nesta seção, você pode encontrar estatísticas detalhadas das durações das etapas em cada núcleo da GPU de cada nó. O depurador avalia valores médios, máximos, p99, p95, p50 e mínimos das durações das etapas e avalia os valores discrepantes das etapas. O histograma a seguir mostra as durações das etapas capturadas em diferentes nós de trabalho e. GPUs Você pode ativar ou desativar o histograma de cada operador escolhendo as legendas do lado direito. Você pode verificar se há uma GPU específica que está causando valores atípicos na duração da etapa.

Análise de utilização da GPU

Esta seção mostra as estatísticas detalhadas sobre a utilização do núcleo da GPU com base na regra LowGPUUtilization . Ele também resume as estatísticas de utilização da GPU, média, p95 e p5 para determinar se o trabalho de treinamento está subutilizado. GPUs

Tamanho do lote

Esta seção mostra as estatísticas detalhadas da utilização total da CPU, das utilizações individuais da GPU e da área ocupada pela memória da GPU. A BatchSize regra determina se você precisa alterar o tamanho do lote para melhor utilizar GPUs o. Você pode verificar se o tamanho do lote é muito pequeno, resultando em subutilização, ou muito grande, causando superutilização e problemas de falta de memória. No gráfico, as caixas mostram os intervalos percentuais p25 e p75 (preenchidos com roxo escuro e amarelo brilhante, respectivamente) da mediana (p50), e as barras de erro mostram o percentil 5 para o limite inferior e o percentil 95 para o limite superior.

Problemas com a CPU

Nesta seção, você pode detalhar os gargalos de CPU que a CPUBottleneck regra detectou em seu trabalho de treinamento. A regra verifica se a utilização da CPU está acima cpu_threshold (90% por padrão) e também se a utilização da GPU está abaixo gpu_threshold (10% por padrão).

Os gráficos circulares mostram as seguintes informações:

Baixo uso da GPU causado por gargalos da CPU: Mostra a proporção de pontos de dados entre aqueles com utilização da GPU acima e abaixo do limite e aqueles que correspondem aos critérios de gargalo da CPU.
Proporção entre a fase TRAIN/EVAL e outras: Mostra a proporção entre as durações de tempo gastas em diferentes fases de treinamento.
Razão entre passe para frente e para trás: Mostra a proporção entre as durações de tempo gastas no passe para frente e para trás no ciclo de treinamento.
Proporção entre operadores de CPU/GPU — Mostra a proporção entre as durações de tempo gastas em e GPUs por operadores CPUs Python, como processos de carregador de dados e operadores de passagem para frente e para trás.
Métricas gerais registradas na estrutura: Mostra as principais métricas da estrutura e a proporção entre as durações de tempo gastas nas métricas.

Problemas de E/S

Nesta seção, você pode encontrar um resumo dos problemas de E/S. A regra avalia o tempo de espera de E/S e as taxas de utilização da GPU e monitora se o tempo gasto nas solicitações de E/S excede uma porcentagem limite do tempo total de treinamento. Isso pode indicar gargalos de E/S que GPUs aguardam a chegada dos dados do armazenamento.

Balanceamento de carga no treinamento com várias GPUs

Nesta seção, você pode identificar problemas de balanceamento da carga de trabalho em 1. GPUs

Análise de memória da GPU

Nesta seção, você pode analisar a utilização da memória da GPU coletada pela regra Increase GPUMemory. No gráfico, as caixas mostram os intervalos percentuais p25 e p75 (preenchidos com roxo escuro e amarelo brilhante, respectivamente) da mediana (p50), e as barras de erro mostram o percentil 5 para o limite inferior e o percentil 95 para o limite superior.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Baixe um relatório de criação SageMaker de perfil do depurador

Optar por não participar da coleção de estatísticas de uso do Depurador