Métricas de Amazon SageMaker HyperPod Slurm

Modo de enfoque

Métricas de Amazon SageMaker HyperPod Slurm - Amazon SageMaker AI

Métricas a nivel de clúster Métricas a nivel de instancia

Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el /aws/sagemaker/Clusters CloudWatch espacio de nombres.

Métricas a nivel de clúster

Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod

CloudWatch nombre de la métrica	Notas	Nombre de métrica de Amazon EKS Container Insights
cluster_node_count	Número total de nodos del clúster	cluster_node_count
cluster_idle_node_count	Número de nodos inactivos en el clúster	N/A
cluster_failed_node_count	Número de nodos fallidos en el clúster	cluster_failed_node_count
cluster_cpu_count	Núcleos de CPU totales del clúster	node_cpu_limit
cluster_idle_cpu_count	Número de núcleos de CPU inactivos en el clúster	N/A
cluster_gpu_count	Total del clúster GPUs	node_gpu_limit
cluster_idle_gpu_count	Número de inactivos en el clúster GPUs	N/A
cluster_running_task_count	Número de trabajos de Slurm en ejecución en el clúster	N/A
cluster_pending_task_count	Número de trabajos de Slurm pendientes en el clúster	N/A
cluster_preempted_task_count	Número de tareas prioritarias de Slurm en el clúster	N/A
cluster_avg_task_wait_time	Tiempo medio de espera para los trabajos de Slurm en el clúster	N/A
cluster_max_task_wait_time	Tiempo máximo de espera para los trabajos de Slurm en el clúster	N/A

Métricas a nivel de instancia

Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod

CloudWatch nombre de la métrica	Notas	Nombre de métrica de Amazon EKS Container Insights
node_gpu_utilization	Utilización media de la GPU en todas las instancias	node_gpu_utilization
node_gpu_memory_utilization	Utilización media de la memoria de la GPU en todas las instancias	node_gpu_memory_utilization
node_cpu_utilization	Utilización media de la CPU en todas las instancias	node_cpu_utilization
node_memory_utilization	Utilización media de memoria en todas las instancias	node_memory_utilization

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Referencia de métricas exportadas

Resiliencia de clústeres

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Métricas de Amazon SageMaker HyperPod Slurm

Métricas a nivel de clúster

Métricas a nivel de instancia

En esta página

¿Le ha servido de ayuda esta página?

Tema siguiente:

Tema anterior:

¿Necesita ayuda?