Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Supervise los recursos SageMaker HyperPod del clúster
Para lograr una observabilidad completa de los recursos y componentes de software de su SageMaker HyperPod clúster, integre el clúster con Amazon Managed Service for Prometheus y Amazon Managed Grafana. La integración con Amazon Managed Service para Prometheus permite exportar métricas relacionadas con los recursos de HyperPod su clúster, lo que proporciona información sobre su rendimiento, uso y estado. La integración con Amazon Managed Grafana permite la visualización de estas métricas a través de varios paneles de Grafana que ofrecen una interfaz intuitiva para monitorear y analizar el comportamiento del clúster. Al aprovechar estos servicios, obtiene una vista centralizada y unificada de su HyperPod clúster, lo que facilita la supervisión proactiva, la solución de problemas y la optimización de sus cargas de trabajo de capacitación distribuidas.
sugerencia
Figura: Este diagrama de arquitectura muestra una descripción general de la configuración SageMaker HyperPod con Amazon Managed Service for Prometheus y Amazon Managed Grafana.
Continúe con los siguientes temas para configurar la observabilidad del clúster. SageMaker HyperPod
Temas
- Requisitos previos para la observabilidad de los SageMaker HyperPod conglomerados
- Instale paquetes de exportación de métricas en su clúster HyperPod
- Valide la configuración de Prometheus en el nodo principal de un clúster HyperPod
- Configura un espacio de trabajo de Grafana gestionado por Amazon
- Referencia de métricas exportadas