Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el /aws/sagemaker/Clusters
CloudWatch espacio de nombres.
Métricas a nivel de clúster
Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la ClusterId
dimensión para identificar el clúster específico. HyperPod
CloudWatch nombre de la métrica | Notas | Nombre de métrica de Amazon EKS Container Insights |
---|---|---|
cluster_node_count | Número total de nodos del clúster | cluster_node_count |
cluster_idle_node_count | Número de nodos inactivos en el clúster | N/A |
cluster_failed_node_count | Número de nodos fallidos en el clúster | cluster_failed_node_count |
cluster_cpu_count | Núcleos de CPU totales del clúster | node_cpu_limit |
cluster_idle_cpu_count | Número de núcleos de CPU inactivos en el clúster | N/A |
cluster_gpu_count | Total del clúster GPUs | node_gpu_limit |
cluster_idle_gpu_count | Número de inactivos en el clúster GPUs | N/A |
cluster_running_task_count | Número de trabajos de Slurm en ejecución en el clúster | N/A |
cluster_pending_task_count | Número de trabajos de Slurm pendientes en el clúster | N/A |
cluster_preempted_task_count | Número de tareas prioritarias de Slurm en el clúster | N/A |
cluster_avg_task_wait_time | Tiempo medio de espera para los trabajos de Slurm en el clúster | N/A |
cluster_max_task_wait_time | Tiempo máximo de espera para los trabajos de Slurm en el clúster | N/A |
Métricas a nivel de instancia
Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la ClusterId
dimensión para identificar el clúster específico. HyperPod
CloudWatch nombre de la métrica | Notas | Nombre de métrica de Amazon EKS Container Insights |
---|---|---|
node_gpu_utilization | Utilización media de la GPU en todas las instancias | node_gpu_utilization |
node_gpu_memory_utilization | Utilización media de la memoria de la GPU en todas las instancias | node_gpu_memory_utilization |
node_cpu_utilization | Utilización media de la CPU en todas las instancias | node_cpu_utilization |
node_memory_utilization | Utilización media de memoria en todas las instancias | node_memory_utilization |