As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Explore o painel do Amazon SageMaker Debugger Insights
Quando você inicia um trabalho de SageMaker treinamento, o SageMaker Debugger começa a monitorar a utilização de recursos das instâncias da Amazon EC2 por padrão. Você pode acompanhar as taxas de utilização do sistema, a visão geral das estatísticas e a análise de regras integradas por meio do painel do Insights. Este guia mostra o conteúdo do painel do SageMaker Debugger Insights nas seguintes guias: Métricas e regras do sistema.
nota
O painel do SageMaker Debugger Insights executa um aplicativo Studio Classic em uma ml.m5.4xlarge
instância para processar e renderizar as visualizações. Cada guia SageMaker do Debugger Insights executa uma sessão do kernel do Studio Classic. Várias sessões do kernel para várias guias do SageMaker Debugger Insights são executadas em uma única instância. Quando você fecha uma guia do SageMaker Debugger Insights, a sessão correspondente do kernel também é fechada. A aplicação Studio Classic permanece ativo e gera cobranças pelo uso da instância ml.m5.4xlarge
. Para obter informações sobre preços, consulte a página de preços do Amazon SageMaker AI
Importante
Quando você terminar de usar o painel do SageMaker Debugger Insights, encerre a ml.m5.4xlarge
instância para evitar o acúmulo de cobranças. Para obter instruções sobre como encerrar a instância, consulte Encerre a instância do Amazon SageMaker Debugger Insights.
Importante
Nos relatórios, gráficos e recomendações são fornecidos para fins informativos e não são definitivos. Você é responsável por fazer sua própria avaliação independente das informações.
Tópicos
Métricas do sistema
Na guia Métricas do sistema, você pode usar a tabela de resumo e os gráficos de séries temporais para entender a utilização de recursos.
Resumo da utilização de recursos
Essa tabela de resumo mostra as estatísticas das métricas de utilização de recursos computacionais de todos os nós (indicados como algo- n). As métricas de utilização de recursos incluem a utilização total da CPU, a utilização total da GPU, a utilização total da memória da CPU, a utilização total da memória da GPU, o tempo total de espera de E/S e a rede total em bytes. A tabela mostra os valores mínimo e máximo e os percentis p99, p90 e p50.
![Uma tabela resumida da utilização de recursos](images/debugger/debugger-studio-insights-resource-util-summary.png)
Gráficos de séries temporais de utilização de recursos
Use os gráficos de séries temporais para ver mais detalhes sobre a utilização de recursos e identificar em que intervalo de tempo cada instância mostra qualquer taxa de utilização indesejada, como baixa utilização de GPU e gargalos de CPU que podem causar o desperdício da instância cara.
A interface do usuário do controlador gráfico de séries temporais
A captura de tela a seguir mostra o controlador de interface do usuário para ajustar os gráficos de séries temporais.
![O controlador de interface do usuário no painel do SageMaker Debugger Insights.](images/debugger/debugger-insights-graph-controller.png)
-
algo-1: Use esse menu suspenso para escolher o nó que você deseja examinar.
-
Ampliar: Use esse botão para ampliar os gráficos de séries temporais e visualizar intervalos de tempo mais curtos.
-
Reduzir: use esse botão para reduzir o zoom dos gráficos de séries temporais e visualizar intervalos de tempo mais amplos.
-
Deslocar para a esquerda: mova os gráficos da série temporal para um intervalo de tempo anterior.
-
Deslocar para a direita: mova os gráficos da série temporal para um intervalo de tempo posterior.
-
Corrigir prazo: use essa caixa de seleção para corrigir ou trazer de volta os gráficos de séries temporais para mostrar a visualização completa do primeiro ponto de dados até o último ponto de dados.
Utilização da CPU e tempo de espera de E/S
Os dois primeiros gráficos mostram a utilização da CPU e o tempo de espera de E/S ao longo do tempo. Por padrão, os gráficos mostram a média da taxa de utilização da CPU e do tempo de espera de E/S gasto nos núcleos da CPU. Você pode selecionar um ou mais núcleos de CPU selecionando os rótulos para representá-los graficamente em um único gráfico e comparar a utilização entre os núcleos. Você pode arrastar e ampliar e reduzir para ver mais de perto intervalos de tempo específicos.
![debugger-studio-insight-mockup](images/debugger/debugger-insights-node-cpu.png)
Utilização da GPU e utilização da memória da GPU
Os gráficos a seguir mostram a utilização da GPU e a utilização da memória da GPU ao longo do tempo. Por padrão, os gráficos mostram a taxa média de utilização ao longo do tempo. Você pode selecionar os rótulos principais da GPU para ver a taxa de utilização de cada núcleo. Tomar a média da taxa de utilização sobre o número total de núcleos de GPU mostra a utilização média de todo o recurso do sistema de hardware. Ao observar a taxa média de utilização, você pode verificar o uso geral dos recursos do sistema de uma EC2 instância da Amazon. A figura a seguir mostra um exemplo de trabalho de treinamento em uma ml.p3.16xlarge
instância com 8 núcleos de GPU. Você pode monitorar se o trabalho de treinamento está bem distribuído, utilizando totalmente tudo GPUs.
![debugger-studio-insight-mockup](images/debugger/debugger-studio-insights-node-gpu.gif)
Utilização geral do sistema ao longo do tempo
O mapa de calor a seguir mostra um exemplo de toda a utilização de uma ml.p3.16xlarge
instância pelo sistema ao longo do tempo, projetada no gráfico bidimensional. Cada núcleo de CPU e GPU é listado no eixo vertical, e a utilização é registrada ao longo do tempo com um esquema de cores, em que as cores brilhantes representam baixa utilização e as cores mais escuras representam alta utilização. Consulte a barra de cores rotulada no lado direito do gráfico para descobrir qual nível de cor corresponde a qual taxa de utilização.
![debugger-studio-insight-mockup](images/debugger/debugger-studio-insights-node-heatmap.png)
Regras
Use a guia Regras para encontrar um resumo da análise das regras de criação de perfil em seu trabalho de treinamento. Se a regra de criação de perfil for ativada com o trabalho de treinamento, o texto aparecerá destacado com o texto branco sólido. As regras inativas são esmaecidas em texto cinza. Para ativar essas regras, siga as instruções emUse regras de criação de perfil integradas gerenciadas pelo Amazon SageMaker Debugger.
![A guia Regras no painel do SageMaker Debugger Insights](images/debugger/debugger-insights-rules.png)