Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon CloudWatch Metrics para supervisar y analizar los trabajos de formación
Un trabajo de SageMaker formación de Amazon es un proceso iterativo que enseña a un modelo a hacer predicciones mediante la presentación de ejemplos de un conjunto de datos de formación. Normalmente, un algoritmo de entrenamiento calcula varias métricas, como, por ejemplo, error de entrenamiento y precisión de predicción. Estas métricas ayudan a diagnosticar si el modelo aprende bien y si generalizará bien a fin de realizar predicciones sobre datos no vistos anteriormente. El algoritmo de entrenamiento escribe los valores de estas métricas en los registros, que los SageMaker monitorizan y envían a Amazon CloudWatch en tiempo real. Para analizar el rendimiento de tu trabajo de entrenamiento, puedes ver los gráficos de estas métricas en CloudWatch. Cuando se ha completado un trabajo de entrenamiento, también puede obtener una lista de los valores de las métricas que calcula en su última iteración llamando a la operación DescribeTrainingJob
.
nota
Amazon CloudWatch admite métricas personalizadas de alta resolución y su mejor resolución es de 1 segundo. Sin embargo, cuanto más fina sea la resolución, menor será la vida útil de las CloudWatch métricas. Para la resolución de frecuencia de 1 segundo, las CloudWatch métricas están disponibles durante 3 horas. Para obtener más información sobre la resolución y la duración de las CloudWatch métricas, consulta GetMetricStatisticsAmazon CloudWatch API Reference.
sugerencia
Si desea perfilar su trabajo de formación con una resolución más precisa, con una granularidad de hasta 100 milisegundos (0,1 segundos) y almacenar las métricas de formación de forma indefinida en Amazon S3 para su análisis personalizado en cualquier momento, considere la posibilidad de utilizar Amazon Debugger. SageMaker SageMaker Debugger proporciona reglas integradas para detectar automáticamente los problemas de entrenamiento más comunes; detecta los problemas de utilización de los recursos de hardware (como CPU los cuellos de botella de E/S y los cuellos de botella de E/S) y los problemas de modelos no convergentes (como el sobreajuste, la desaparición de los gradientes y la explosión de los tensores). GPU SageMaker Debugger también proporciona visualizaciones a través de Studio Classic y su informe de creación de perfiles. Para explorar las visualizaciones del depurador, consulte el tutorial del panel de control de SageMaker Debugger Insights, el tutorial del informe de creación de perfiles del depurador y el análisis de datos mediante la biblioteca de clientes. SMDebug