Référence des métriques exportées

Mode de mise au point

Référence des métriques exportées - Amazon SageMaker AI

Tableau de bord de l'exportateur Slurm Tableau de bord Node Exporter Tableau de bord de l'exportateur NVIDIA DCGM Tableau de bord des métriques EFA FSx pour le tableau de bord des métriques Lustre

Les sections suivantes présentent des listes complètes de métriques exportées depuis SageMaker HyperPod Amazon Managed Service for Prometheus après la configuration réussie de la pile à des fins d'observabilité AWS CloudFormation . SageMaker HyperPod Vous pouvez commencer à surveiller ces métriques visualisées dans les tableaux de bord Amazon Managed Grafana.

Tableau de bord de l'exportateur Slurm

Fournit des informations visualisées sur les clusters Slurm sur. SageMaker HyperPod

Types de métriques

Vue d'ensemble du cluster : affichage du nombre total de nœuds, de tâches et de leurs états.
Mesures relatives aux tâches : visualisation du nombre de tâches et de l'état des tâches au fil du temps.
Métriques des nœuds : affichage de l'état des nœuds, de leur allocation et des ressources disponibles.
Métriques de partition : surveillance des métriques spécifiques aux partitions, telles que l'utilisation du processeur, de la mémoire et du GPU.
Efficacité du travail : calcul de l'efficacité du travail en fonction des ressources utilisées.

Liste des métriques

Nom des métriques	Description
`slurm_job_count`	Nombre total d'emplois dans le cluster Slurm
`slurm_job_state_count`	Nombre de tâches dans chaque État (par exemple, en cours, en attente, terminées)
`slurm_node_count`	Nombre total de nœuds dans le cluster Slurm
`slurm_node_state_count`	Nombre de nœuds dans chaque état (par exemple, inactif, alloc, mix)
`slurm_partition_node_count`	Nombre de nœuds dans chaque partition
`slurm_partition_job_count`	Nombre de tâches dans chaque partition
`slurm_partition_alloc_cpus`	Nombre total de personnes allouées CPUs dans chaque partition
`slurm_partition_free_cpus`	Nombre total de disques disponibles CPUs dans chaque partition
`slurm_partition_alloc_memory`	Mémoire totale allouée dans chaque partition
`slurm_partition_free_memory`	Mémoire totale disponible dans chaque partition
`slurm_partition_alloc_gpus`	Total alloué GPUs dans chaque partition
`slurm_partition_free_gpus`	Total disponible GPUs dans chaque partition

Tableau de bord Node Exporter

Fournit des informations visualisées sur les métriques du système collectées par l'exportateur de nœuds Prometheus à partir des nœuds du cluster. HyperPod

Types de métriques

Présentation du système : affichage des moyennes de charge du processeur et de l'utilisation de la mémoire.
Indicateurs de mémoire : visualisation de l'utilisation de la mémoire, notamment de la mémoire totale, de la mémoire libre et de l'espace de swap.
Utilisation du disque : surveillance de l'utilisation et de la disponibilité de l'espace disque.
Trafic réseau : affichage des octets réseau reçus et transmis au fil du temps.
Métriques du système de fichiers : analyse de l'utilisation et de la disponibilité du système de fichiers.
Métriques d'E/S du disque : visualisation de l'activité de lecture et d'écriture sur le disque.

Liste des métriques

Pour une liste complète des métriques exportées, consultez les GitHub référentiels Node Exporter et procfs. Le tableau suivant présente un sous-ensemble de mesures qui fournissent des informations sur l'utilisation des ressources du système, telles que la charge du processeur, l'utilisation de la mémoire, l'espace disque et l'activité réseau.

Nom des métriques	Description
`node_load1`	Charge moyenne sur 1 minute
`node_load5`	Charge moyenne sur 5 minutes
`node_load15`	Charge moyenne sur 15 minutes
`node_memory_MemTotal`	Mémoire totale du système
`node_memory_MemFree`	Mémoire système gratuite
`node_memory_MemAvailable`	Mémoire disponible pour l'allocation aux processus
`node_memory_Buffers`	Mémoire utilisée par le noyau pour la mise en mémoire tampon
`node_memory_Cached`	Mémoire utilisée par le noyau pour la mise en cache des données du système de fichiers
`node_memory_SwapTotal`	Espace d'échange total disponible
`node_memory_SwapFree`	Espace d'échange gratuit
`node_memory_SwapCached`	Mémoire qui, une fois échangée, est rééchangée mais toujours en cours d'échange
`node_filesystem_avail_bytes`	Espace disque disponible en octets
`node_filesystem_size_bytes`	Espace disque total en octets
`node_filesystem_free_bytes`	Espace disque libre en octets
`node_network_receive_bytes`	Octets réseau reçus
`node_network_transmit_bytes`	Octets réseau transmis
`node_disk_read_bytes`	Octets de disque lus
`node_disk_written_bytes`	Octets de disque écrits

Tableau de bord de l'exportateur NVIDIA DCGM

Fournit des informations visualisées sur les métriques du GPU NVIDIA collectées par l'exportateur NVIDIA DCGM.

Types de métriques

Présentation du GPU : affichage de l'utilisation du GPU, des températures, de la consommation d'énergie et de l'utilisation de la mémoire.
Métriques de température : visualisation de la température du GPU au fil du temps.
Consommation d'énergie : surveillance de la consommation d'énergie du GPU et des tendances en matière de consommation d'énergie.
Utilisation de la mémoire : analyse de l'utilisation de la mémoire du GPU, y compris la mémoire utilisée, la mémoire libre et la mémoire totale.
Vitesse du ventilateur : affichage de la vitesse et des variations des ventilateurs du processeur graphique.
Erreurs ECC : suivi des erreurs ECC de la mémoire GPU et des erreurs en attente.

Liste des métriques

Le tableau suivant présente une liste des indicateurs qui fournissent des informations sur l'état et les performances du GPU NVIDIA, notamment les fréquences d'horloge, les températures, la consommation d'énergie, l'utilisation de la mémoire, la vitesse des ventilateurs et les mesures d'erreur.

Nom des métriques	Description
`DCGM_FI_DEV_SM_CLOCK`	Fréquence d'horloge SM (in MHz)
`DCGM_FI_DEV_MEM_CLOCK`	Fréquence de l'horloge de la mémoire (in MHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Température de la mémoire (en °C)
`DCGM_FI_DEV_GPU_TEMP`	Température du GPU (en °C)
`DCGM_FI_DEV_POWER_USAGE`	Consommation électrique (en W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Consommation d'énergie totale depuis le démarrage (en mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Nombre total de PCIe tentatives
`DCGM_FI_DEV_MEM_COPY_UTIL`	Utilisation de la mémoire (en %)
`DCGM_FI_DEV_ENC_UTIL`	Utilisation du codeur (en %)
`DCGM_FI_DEV_DEC_UTIL`	Utilisation du décodeur (en %)
`DCGM_FI_DEV_XID_ERRORS`	Valeur de la dernière erreur XID rencontrée
`DCGM_FI_DEV_FB_FREE`	Mémoire tampon d'images libre (en MiB)
`DCGM_FI_DEV_FB_USED`	Mémoire tampon d'images utilisée (en MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Nombre total de compteurs de NVLink bande passante pour toutes les voies
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	État de la licence vGPU
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Nombre de lignes remappées pour les erreurs non corrigeables
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Nombre de lignes remappées pour les erreurs pouvant être corrigées
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Si le remappage des lignes a échoué

Tableau de bord des métriques EFA

Fournit des informations visualisées sur les métriques provenant d'Amazon Elastic Fabric Adapter (EFA) équipé d'instances P collectées par l'exportateur de nœuds EFA.

Types de métriques

Métriques d'erreur EFA : visualisation des erreurs telles que les erreurs d'allocation, les erreurs de commande et les erreurs de mappage mémoire.
Trafic réseau EFA : surveillance des octets, des paquets et des demandes de travail reçus et transmis.
Performances EFA RDMA : analyse des opérations de lecture et d'écriture RDMA, y compris les octets transférés et les taux d'erreur.
Durée de vie des ports EFA : affichage de la durée de vie des ports EFA au fil du temps.
Paquets EFA keep-alive : suivi du nombre de paquets keep-alive reçus.

Liste des métriques

Le tableau suivant présente une liste des mesures qui fournissent des informations sur divers aspects du fonctionnement de l'EFA, notamment les erreurs, les commandes terminées, le trafic réseau et l'utilisation des ressources.

Nom des métriques	Description
`node_amazonefa_info`	Données non numériquesfrom /sys/class/infiniband/, la valeur est toujours 1.
`node_amazonefa_lifespan`	Durée de vie du port
`node_amazonefa_rdma_read_bytes`	Nombre d'octets lus avec RDMA
`node_amazonefa_rdma_read_resp_bytes`	Nombre d'octets de réponse de lecture avec RDMA
`node_amazonefa_rdma_read_wr_err`	Nombre d'erreurs de lecture et d'écriture avec RDMA
`node_amazonefa_rdma_read_wrs`	Nombre de lecteurs avec RDMA
`node_amazonefa_rdma_write_bytes`	Nombre d'octets écrits avec RDMA
`node_amazonefa_rdma_write_recv_bytes`	Nombre d'octets écrits et reçus avec RDMA
`node_amazonefa_rdma_write_wr_err`	Nombre d'octets écrits avec une erreur RDMA
`node_amazonefa_rdma_write_wrs`	Nombre d'octets écrits en RDMA
`node_amazonefa_recv_bytes`	Nombre d'octets reçus
`node_amazonefa_recv_wrs`	Nombre d'octets reçus wrs
`node_amazonefa_rx_bytes`	Nombre d'octets reçus
`node_amazonefa_rx_drops`	Nombre de paquets abandonnés
`node_amazonefa_rx_pkts`	Nombre de paquets reçus
`node_amazonefa_send_bytes`	Nombre d'octets envoyés
`node_amazonefa_send_wrs`	Nombre de lettres envoyées
`node_amazonefa_tx_bytes`	Nombre d'octets transmis
`node_amazonefa_tx_pkts`	Nombre de paquets transmis

FSx pour le tableau de bord des métriques Lustre

Fournit des informations visualisées sur les métriques du système de fichiers Amazon FSx for Lustre collectées par Amazon CloudWatch.

Note

Le tableau de bord Grafana FSx for Lustre utilise CloudWatch Amazon comme source de données, ce qui est différent des autres tableaux de bord que vous avez configurés pour utiliser Amazon Managed Service for Prometheus. Pour garantir une surveillance et une visualisation précises des métriques relatives à votre système de fichiers FSx for Lustre, configurez le tableau de bord FSx for Lustre pour utiliser Amazon CloudWatch comme source de données, en spécifiant le même Région AWS endroit où votre système de fichiers FSx for Lustre est déployé.

Types de métriques

DataReadBytes: nombre d'octets pour les opérations de lecture du système de fichiers.
DataWriteBytes: nombre d'octets pour les opérations d'écriture dans le système de fichiers.
DataReadOperations: le nombre d'opérations de lecture.
DataWriteOperations: le nombre d'opérations d'écriture.
MetadataOperations: le nombre d'opérations sur les métadonnées.
FreeDataStorageCapacity: quantité de capacité de stockage disponible.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configurer un espace de travail Grafana géré par Amazon

Statistiques d'Amazon SageMaker HyperPod Slurm

Sur cette page

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Référence des métriques exportées

Tableau de bord de l'exportateur Slurm

Tableau de bord Node Exporter

Tableau de bord de l'exportateur NVIDIA DCGM

Tableau de bord des métriques EFA

FSx pour le tableau de bord des métriques Lustre

Note

Sur cette page

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?