Panel de control de exportación de Slurm Panel de control del exportador de nodos NVIDIADCGMpanel de control del exportador EFApanel de métricas FSxpara el panel de métricas de Lustre

Referencia de métricas exportadas

En las siguientes secciones se presentan listas completas de métricas exportadas desde SageMaker HyperPod Amazon Managed Service for Prometheus tras la correcta configuración del AWS CloudFormation pila para la observabilidad. SageMaker HyperPod Puede empezar a monitorizar estas métricas visualizadas en los paneles de Amazon Managed Grafana.

Panel de control de exportación de Slurm

Proporciona información visualizada de los clústeres de Slurm en. SageMaker HyperPod

Tipos de métricas

Descripción general del clúster: muestra el número total de nodos, trabajos y sus estados.
Métricas de trabajo: visualización de los recuentos y estados de los trabajos a lo largo del tiempo.
Métricas de nodos: muestran los estados, la asignación y los recursos disponibles de los nodos.
Métricas de partición: monitorea métricas específicas de la particiónCPU, como la memoria y GPU la utilización.
Eficiencia laboral: calcular la eficiencia laboral en función de los recursos utilizados.

Lista de métricas

Nombre de métrica	Descripción
`slurm_job_count`	Número total de trabajos en el clúster de Slurm
`slurm_job_state_count`	Recuento de trabajos en cada estado (por ejemplo, en ejecución, pendientes o completados)
`slurm_node_count`	Número total de nodos en el clúster de Slurm
`slurm_node_state_count`	Recuento de nodos en cada estado (p. ej., inactivos, bloqueados, mixtos)
`slurm_partition_node_count`	Recuento de nodos en cada partición
`slurm_partition_job_count`	Recuento de trabajos en cada partición
`slurm_partition_alloc_cpus`	Número total de unidades asignadas CPUs en cada partición
`slurm_partition_free_cpus`	Número total de unidades disponibles CPUs en cada partición
`slurm_partition_alloc_memory`	Memoria total asignada en cada partición
`slurm_partition_free_memory`	Memoria total disponible en cada partición
`slurm_partition_alloc_gpus`	Total asignado GPUs a cada partición
`slurm_partition_free_gpus`	Total disponible GPUs en cada partición

Panel de control del exportador de nodos

Proporciona información visualizada de las métricas del sistema recopiladas por el exportador de nodos de Prometheus desde los nodos del clúster. HyperPod

Tipos de métricas

Descripción general del sistema: muestra los promedios de CPU carga y el uso de memoria.
Métricas de memoria: visualización del uso de la memoria, incluida la memoria total, la memoria libre y el espacio de intercambio.
Uso del disco: monitorea la utilización y la disponibilidad del espacio en disco.
Tráfico de red: muestra los bytes de red recibidos y transmitidos a lo largo del tiempo.
Métricas del sistema de archivos: análisis del uso y la disponibilidad del sistema de archivos.
Métricas de E/S del disco: visualización de la actividad de lectura y escritura del disco.

Lista de métricas

Para obtener una lista completa de las métricas exportadas, consulta el exportador de nodos y los repositorios procfs GitHub . La siguiente tabla muestra un subconjunto de métricas que proporciona información sobre la utilización de los recursos del sistema, como la CPU carga, el uso de memoria, el espacio en disco y la actividad de la red.

Nombre de métrica	Descripción
`node_load1`	Carga media de 1 minuto
`node_load5`	Carga media de 5 minutos
`node_load15`	Carga media de 15 minutos
`node_memory_MemTotal`	Memoria total del sistema
`node_memory_MemFree`	Memoria de sistema libre
`node_memory_MemAvailable`	Memoria disponible para su asignación a los procesos
`node_memory_Buffers`	Memoria utilizada por el núcleo para el almacenamiento en búfer
`node_memory_Cached`	Memoria utilizada por el núcleo para almacenar en caché los datos del sistema de archivos
`node_memory_SwapTotal`	Espacio total de intercambio disponible
`node_memory_SwapFree`	Espacio de permuta gratuito
`node_memory_SwapCached`	La memoria que una vez se intercambió, se vuelve a intercambiar pero aún se intercambia
`node_filesystem_avail_bytes`	Espacio en disco disponible en bytes
`node_filesystem_size_bytes`	Espacio total en disco en bytes
`node_filesystem_free_bytes`	Espacio libre en disco en bytes
`node_network_receive_bytes`	Bytes de red recibidos
`node_network_transmit_bytes`	Bytes de red transmitidos
`node_disk_read_bytes`	Bytes de disco leídos
`node_disk_written_bytes`	Bytes de disco escritos

NVIDIADCGMpanel de control del exportador

Proporciona información visualizada de NVIDIA GPU las métricas recopiladas por el NVIDIA DCGM exportador.

Tipos de métricas

GPUDescripción general: muestra GPU la utilización, las temperaturas, el uso de energía y el uso de memoria.
Métricas de temperatura: visualización de GPU las temperaturas a lo largo del tiempo.
Consumo de energía: monitoreo del consumo GPU de energía y las tendencias de uso de energía.
Utilización de la GPU memoria: analiza el uso de la memoria, incluida la memoria utilizada, la libre y la total.
Velocidad del ventilador: muestra las velocidades y variaciones del GPU ventilador.
ECCErrores: errores de GPU memoria de seguimiento y ECC errores pendientes.

Lista de métricas

La siguiente tabla muestra una lista de las métricas que proporcionan información sobre el NVIDIA GPU estado y el rendimiento, incluidas las frecuencias de reloj, las temperaturas, el uso de energía, la utilización de la memoria, las velocidades de los ventiladores y las métricas de error.

Nombre de métrica	Descripción
`DCGM_FI_DEV_SM_CLOCK`	Frecuencia de reloj SM (pulgadasMHz)
`DCGM_FI_DEV_MEM_CLOCK`	Frecuencia de reloj de memoria (pulgadasMHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Temperatura de la memoria (en °C)
`DCGM_FI_DEV_GPU_TEMP`	GPUtemperatura (en C)
`DCGM_FI_DEV_POWER_USAGE`	Consumo de energía (en W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Consumo total de energía desde el arranque (en mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Número total de reintentos PCIe
`DCGM_FI_DEV_MEM_COPY_UTIL`	Utilización de memoria (en%)
`DCGM_FI_DEV_ENC_UTIL`	Utilización del codificador (en%)
`DCGM_FI_DEV_DEC_UTIL`	Utilización del decodificador (en%)
`DCGM_FI_DEV_XID_ERRORS`	Valor del último XID error detectado
`DCGM_FI_DEV_FB_FREE`	Memoria de búfer de fotogramas libre (en MiB)
`DCGM_FI_DEV_FB_USED`	Memoria de búfer de fotogramas utilizada (en MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Número total de contadores de NVLink ancho de banda para todos los carriles
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	v Estado GPU de la licencia
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Número de filas reasignadas para detectar errores incorregibles
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Número de filas reasignadas para detectar errores corregibles
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Si se ha producido un error en la reasignación de filas

EFApanel de métricas

Proporciona información visualizada de las métricas del Amazon Elastic Fabric Adapter (EFA) equipado con instancias P recopiladas por el exportador de EFA nodos.

Tipos de métricas

EFAmétricas de errores: visualización de errores como errores de asignación, errores de comandos y errores de mapas de memoria.
EFAtráfico de red: supervisión de los bytes, paquetes y solicitudes de trabajo recibidos y transmitidos.
EFARDMArendimiento: analiza las operaciones de RDMA lectura y escritura, incluidos los bytes transferidos y las tasas de error.
EFAvida útil de los puertos: muestra la vida útil de EFA los puertos a lo largo del tiempo.
EFApaquetes keep-alive: seguimiento del número de paquetes keep-alive recibidos.

Lista de métricas

La siguiente tabla muestra una lista de las métricas que proporcionan información sobre varios aspectos del EFA funcionamiento, incluidos los errores, los comandos completados, el tráfico de red y la utilización de los recursos.

Nombre de métrica	Descripción
`node_amazonefa_info`	Datos no numéricos de /sys/class/infiniband/, el valor siempre es 1.
`node_amazonefa_lifespan`	Vida útil del puerto
`node_amazonefa_rdma_read_bytes`	Número de bytes leídos con RDMA
`node_amazonefa_rdma_read_resp_bytes`	Número de bytes de respuesta de lectura con RDMA
`node_amazonefa_rdma_read_wr_err`	Número de errores de lectura/escritura con RDMA
`node_amazonefa_rdma_read_wrs`	Número de barras de lectura con RDMA
`node_amazonefa_rdma_write_bytes`	Número de bytes escritos con RDMA
`node_amazonefa_rdma_write_recv_bytes`	Número de bytes escritos y recibidos con RDMA
`node_amazonefa_rdma_write_wr_err`	Número de bytes escritos con error RDMA
`node_amazonefa_rdma_write_wrs`	Número de bytes escritos RDMA
`node_amazonefa_recv_bytes`	Número de bytes recibidos
`node_amazonefa_recv_wrs`	Número de bytes recibidos
`node_amazonefa_rx_bytes`	Número de bytes recibidos
`node_amazonefa_rx_drops`	Número de paquetes descartados
`node_amazonefa_rx_pkts`	Número de paquetes recibidos
`node_amazonefa_send_bytes`	Número de bytes enviados
`node_amazonefa_send_wrs`	Número de guerras enviadas
`node_amazonefa_tx_bytes`	Número de bytes transmitidos
`node_amazonefa_tx_pkts`	Número de paquetes transmitidos

FSxpara el panel de métricas de Lustre

Proporciona información visualizada de las métricas del sistema de archivos Amazon FSx for Lustre recopiladas por Amazon. CloudWatch

nota

El panel de control de Grafana FSx for Lustre utiliza Amazon CloudWatch como fuente de datos, lo que difiere de los demás paneles que ha configurado para utilizar Amazon Managed Service for Prometheus. Para garantizar una supervisión y visualización precisas de las métricas relacionadas con su sistema de archivos de FSx for Lustre, configure el panel de control de FSx for Lustre para que utilice Amazon CloudWatch como fuente de datos, especificando lo mismo Región de AWS donde está implementado su sistema de archivos FSx para Lustre.

Tipos de métricas

DataReadBytes: el número de bytes de las operaciones de lectura del sistema de archivos.
DataWriteBytes: el número de bytes de las operaciones de escritura del sistema de archivos.
DataReadOperations: el número de operaciones de lectura.
DataWriteOperations: El número de operaciones de escritura.
MetadataOperations: El número de operaciones de metadatos.
FreeDataStorageCapacity: La cantidad de capacidad de almacenamiento disponible.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Configura un espacio de trabajo de Grafana gestionado por Amazon

Resiliencia de los clústeres