Perfilar y optimizar el rendimiento computacional - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Perfilar y optimizar el rendimiento computacional

Cuando se entrenan modelos de aprendizaje state-of-the-art profundo que crecen rápidamente en tamaño, escalar el trabajo de entrenamiento de dichos modelos a un gran clúster de GPU e identificar los problemas de rendimiento computacional derivados de miles de millones y billones de operaciones y comunicaciones en cada iteración del proceso de descenso de gradientes se convierte en un desafío.

SageMaker proporciona herramientas de creación de perfiles para visualizar y diagnosticar problemas de computación tan complejos que surgen al realizar trabajos de formación con recursos de computación en la nube. AWS Se SageMaker ofrecen dos opciones de creación de perfiles: Amazon SageMaker Profiler y un monitor de uso de recursos en Amazon Studio Classic. SageMaker Consulte las siguientes introducciones de las dos funcionalidades para obtener información rápida y saber cuál usar en función de sus necesidades.

Amazon SageMaker Profiler

Amazon SageMaker Profiler es una función de creación de perfiles SageMaker con la que puede analizar en profundidad los recursos informáticos aprovisionados mientras entrena modelos de aprendizaje profundo y obtener visibilidad de los detalles a nivel operativo. SageMaker Profiler proporciona módulos de Python para añadir anotaciones en todos los scripts PyTorch o TensorFlow entrenarlos y activar SageMaker Profiler. Puede acceder a los módulos a través del SDK de SageMaker Python y AWS Deep Learning Containers.

Con SageMaker Profiler, puede realizar un seguimiento de todas las actividades de las CPU y las GPU, como el uso de las CPU y las GPU, la ejecución del núcleo en las GPU, los lanzamientos del núcleo en las CPU, las operaciones de sincronización, las operaciones de memoria entre las CPU y las GPU, las latencias entre los lanzamientos del núcleo y las ejecuciones correspondientes y la transferencia de datos entre las CPU y las GPU.

SageMaker Profiler también ofrece una interfaz de usuario (UI) que visualiza el perfil, un resumen estadístico de los eventos perfilados y la cronología de un trabajo de capacitación para rastrear y comprender la relación temporal de los eventos entre las GPU y las CPU.

Para obtener más información sobre Profiler, consulte. SageMaker Amazon SageMaker Profiler

Supervisión de los recursos AWS informáticos en Amazon SageMaker Studio Classic

SageMaker también proporciona una interfaz de usuario en Studio Classic para monitorear la utilización de los recursos a un alto nivel, pero con más granularidad en comparación con las métricas de uso predeterminadas recopiladas desde SageMaker hasta CloudWatch.

Para cualquier trabajo de formación que ejecute SageMaker con el SDK de SageMaker Python, SageMaker comienza a perfilar las métricas básicas de uso de los recursos, como el uso de la CPU, el uso de la GPU, el uso de la memoria de la GPU, la red y el tiempo de espera de E/S. Recopila estas métricas de uso de recursos cada 500 milisegundos.

En comparación con CloudWatch las métricas de Amazon, que recopilan las métricas a intervalos de 1 segundo, la funcionalidad de monitoreo SageMaker proporciona una granularidad más precisa de las métricas de uso de los recursos en intervalos de 100 milisegundos (0,1 segundos), por lo que puede profundizar en las métricas a nivel de una operación o un paso.

Para acceder al panel de control para supervisar las métricas de utilización de los recursos de un trabajo de formación, consulte la interfaz de usuario del SageMakerdepurador en Studio Experiments. SageMaker