Amazon CloudWatch Metrics para supervisar y analizar los trabajos de formación

Modo de enfoque

Amazon CloudWatch Metrics para supervisar y analizar los trabajos de formación - Amazon SageMaker AI

Un trabajo de SageMaker formación de Amazon es un proceso iterativo que enseña a un modelo a hacer predicciones mediante la presentación de ejemplos de un conjunto de datos de formación. Normalmente, un algoritmo de entrenamiento calcula varias métricas, como, por ejemplo, error de entrenamiento y precisión de predicción. Estas métricas ayudan a diagnosticar si el modelo aprende bien y si generalizará bien a fin de realizar predicciones sobre datos no vistos anteriormente. El algoritmo de entrenamiento escribe los valores de estas métricas en los registros, que la SageMaker IA monitorea y envía a Amazon CloudWatch en tiempo real. Para analizar el rendimiento de su trabajo de capacitación, puede ver gráficos de estas métricas en CloudWatch. Cuando se ha completado un trabajo de entrenamiento, también puede obtener una lista de los valores de las métricas que calcula en su última iteración llamando a la operación DescribeTrainingJob.

nota

Amazon CloudWatch admite métricas personalizadas de alta resolución y su mejor resolución es de 1 segundo. Sin embargo, cuanto más fina sea la resolución, menor será la vida útil de las CloudWatch métricas. Para la resolución de frecuencia de 1 segundo, las CloudWatch métricas están disponibles durante 3 horas. Para obtener más información sobre la resolución y la duración de las CloudWatch métricas, consulta la referencia GetMetricStatisticsde las CloudWatch API de Amazon.

sugerencia

Si desea perfilar su trabajo de formación con una resolución más precisa, con una granularidad de hasta 100 milisegundos (0,1 segundos) y almacenar las métricas de formación de forma indefinida en Amazon S3 para su análisis personalizado en cualquier momento, considere la posibilidad de utilizar Amazon Debugger. SageMaker SageMaker Debugger proporciona reglas integradas para detectar automáticamente los problemas de entrenamiento más comunes; detecta los problemas de uso de los recursos de hardware (como los cuellos de botella de la CPU, la GPU y la E/S) y los problemas de modelos no convergentes (como el sobreajuste, la desaparición de los gradientes y la explosión de los tensores). SageMaker Debugger también proporciona visualizaciones a través de Studio Classic y su informe de creación de perfiles. Para explorar las visualizaciones del depurador, consulte el tutorial del panel de control de SageMaker Debugger Insights, el tutorial del informe de creación de perfiles del depurador y el análisis de datos mediante la biblioteca de clientes. SMDebug

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Utilice piscinas calientes gestionadas por SageMaker IA

Definición de las métricas de capacitación

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Amazon CloudWatch Metrics para supervisar y analizar los trabajos de formación

nota

sugerencia

Temas

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?