CloudWatch Métricas da Amazon para monitorar e analisar trabalhos de treinamento - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

CloudWatch Métricas da Amazon para monitorar e analisar trabalhos de treinamento

Um trabalho de SageMaker treinamento da Amazon é um processo iterativo que ensina um modelo a fazer previsões apresentando exemplos de um conjunto de dados de treinamento. Normalmente, um algoritmo de treinamento calcula várias métricas, como erro de treinamento e precisão de previsão. Essas métricas ajudam a diagnosticar se o modelo está aprendendo bem e generalizará bem para fazer previsões sobre dados não vistos. O algoritmo de treinamento grava os valores dessas métricas em registros, que SageMaker monitoram e enviam para a Amazon CloudWatch em tempo real. Para analisar o desempenho do seu trabalho de treinamento, você pode visualizar gráficos dessas métricas em CloudWatch. Quando um trabalho de treinamento estiver concluído, você também poderá obter uma lista dos valores de métrica que ele calcula em sua iteração final chamando a operação DescribeTrainingJob.

nota

A Amazon CloudWatch oferece suporte a métricas personalizadas de alta resolução, e sua melhor resolução é de 1 segundo. No entanto, quanto melhor for a resolução, menor será a vida útil das métricas. CloudWatch Para a resolução de frequência de 1 segundo, as CloudWatch métricas ficam disponíveis por 3 horas. Para obter mais informações sobre a resolução e a vida útil das CloudWatch métricas, consulte GetMetricStatisticsna Amazon CloudWatch API Reference.

dica

Se você quiser traçar o perfil do seu trabalho de treinamento com uma resolução mais precisa de até 100 milissegundos (0,1 segundo) de granularidade e armazenar as métricas de treinamento indefinidamente no Amazon S3 para análise personalizada a qualquer momento, considere usar o Amazon Debugger. SageMaker SageMaker O Debugger fornece regras integradas para detectar automaticamente problemas comuns de treinamento; ele detecta problemas de utilização de recursos de hardware (como CPU gargalos de E/S e gargalos de E/S) e problemas de modelos não convergentes (como sobreajusteGPU, gradientes que desaparecem e tensores explosivos). SageMaker O Debugger também fornece visualizações por meio do Studio Classic e seu relatório de criação de perfil. Para explorar as visualizações do Debugger, consulte Passo a passo do painel do SageMaker Debugger Insights, Passo a passo do relatório de criação de perfil do Debugger e Análise de dados usando a biblioteca cliente. SMDebug