Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Métricas de Amazon SageMaker HyperPod Slurm

Modo de enfoque
Métricas de Amazon SageMaker HyperPod Slurm - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon SageMaker HyperPod proporciona un conjunto de CloudWatch métricas de Amazon que puedes usar para monitorear el estado y el rendimiento de tus HyperPod clústeres. Estas métricas se recopilan del administrador de cargas de trabajo Slurm que se ejecuta en sus HyperPod clústeres y están disponibles en el /aws/sagemaker/Clusters CloudWatch espacio de nombres.

Métricas a nivel de clúster

Están disponibles las siguientes métricas a nivel de clúster para. HyperPod Estas métricas utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod

CloudWatch nombre de la métrica Notas Nombre de métrica de Amazon EKS Container Insights
cluster_node_count Número total de nodos del clúster cluster_node_count
cluster_idle_node_count Número de nodos inactivos en el clúster N/A
cluster_failed_node_count Número de nodos fallidos en el clúster cluster_failed_node_count
cluster_cpu_count Núcleos de CPU totales del clúster node_cpu_limit
cluster_idle_cpu_count Número de núcleos de CPU inactivos en el clúster N/A
cluster_gpu_count Total del clúster GPUs node_gpu_limit
cluster_idle_gpu_count Número de inactivos en el clúster GPUs N/A
cluster_running_task_count Número de trabajos de Slurm en ejecución en el clúster N/A
cluster_pending_task_count Número de trabajos de Slurm pendientes en el clúster N/A
cluster_preempted_task_count Número de tareas prioritarias de Slurm en el clúster N/A
cluster_avg_task_wait_time Tiempo medio de espera para los trabajos de Slurm en el clúster N/A
cluster_max_task_wait_time Tiempo máximo de espera para los trabajos de Slurm en el clúster N/A

Métricas a nivel de instancia

Están disponibles las siguientes métricas a nivel de instancia para. HyperPod Estas métricas también utilizan la ClusterId dimensión para identificar el clúster específico. HyperPod

CloudWatch nombre de la métrica Notas Nombre de métrica de Amazon EKS Container Insights
node_gpu_utilization Utilización media de la GPU en todas las instancias node_gpu_utilization
node_gpu_memory_utilization Utilización media de la memoria de la GPU en todas las instancias node_gpu_memory_utilization
node_cpu_utilization Utilización media de la CPU en todas las instancias node_cpu_utilization
node_memory_utilization Utilización media de memoria en todas las instancias node_memory_utilization

En esta página

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.