Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Référence des métriques exportées
Les sections suivantes présentent des listes complètes de métriques exportées depuis SageMaker HyperPod Amazon Managed Service for Prometheus après la configuration réussie de la pile à des fins d'observabilité AWS CloudFormation . SageMaker HyperPod Vous pouvez commencer à surveiller ces métriques visualisées dans les tableaux de bord Amazon Managed Grafana.
Tableau de bord de l'exportateur Slurm
Fournit des informations visualisées sur les clusters Slurm sur. SageMaker HyperPod
Types de métriques
-
Vue d'ensemble du cluster : affichage du nombre total de nœuds, de tâches et de leurs états.
-
Mesures relatives aux tâches : visualisation du nombre de tâches et de l'état des tâches au fil du temps.
-
Métriques des nœuds : affichage de l'état des nœuds, de leur allocation et des ressources disponibles.
-
Métriques de partition : surveillance des métriques spécifiques aux partitionsCPU, telles que la mémoire et GPU l'utilisation.
-
Efficacité du travail : calcul de l'efficacité du travail en fonction des ressources utilisées.
Liste des métriques
Nom des métriques | Description |
---|---|
slurm_job_count |
Nombre total d'emplois dans le cluster Slurm |
slurm_job_state_count |
Nombre de tâches dans chaque État (par exemple, en cours, en attente, terminées) |
slurm_node_count
|
Nombre total de nœuds dans le cluster Slurm |
slurm_node_state_count
|
Nombre de nœuds dans chaque état (par exemple, inactif, alloc, mix) |
slurm_partition_node_count
|
Nombre de nœuds dans chaque partition |
slurm_partition_job_count
|
Nombre de tâches dans chaque partition |
slurm_partition_alloc_cpus
|
Nombre total de personnes allouées CPUs dans chaque partition |
slurm_partition_free_cpus
|
Nombre total de disques disponibles CPUs dans chaque partition |
slurm_partition_alloc_memory
|
Mémoire totale allouée dans chaque partition |
slurm_partition_free_memory
|
Mémoire totale disponible dans chaque partition |
slurm_partition_alloc_gpus
|
Total alloué GPUs dans chaque partition |
slurm_partition_free_gpus
|
Total disponible GPUs dans chaque partition |
Tableau de bord Node Exporter
Fournit des informations visualisées sur les métriques du système collectées par l'exportateur de nœuds Prometheus à partir des nœuds du cluster
Types de métriques
-
Présentation du système : affichage des moyennes CPU de charge et de l'utilisation de la mémoire.
-
Indicateurs de mémoire : visualisation de l'utilisation de la mémoire, notamment de la mémoire totale, de la mémoire libre et de l'espace de swap.
-
Utilisation du disque : surveillance de l'utilisation et de la disponibilité de l'espace disque.
-
Trafic réseau : affichage des octets réseau reçus et transmis au fil du temps.
-
Métriques du système de fichiers : analyse de l'utilisation et de la disponibilité du système de fichiers.
-
Métriques d'E/S du disque : visualisation de l'activité de lecture et d'écriture sur le disque.
Liste des métriques
Pour une liste complète des métriques exportées, consultez les GitHub référentiels Node Exporter
Nom des métriques | Description |
---|---|
node_load1
|
Charge moyenne sur 1 minute |
node_load5
|
Charge moyenne sur 5 minutes |
node_load15
|
Charge moyenne sur 15 minutes |
node_memory_MemTotal
|
Mémoire totale du système |
node_memory_MemFree
|
Mémoire système gratuite |
node_memory_MemAvailable
|
Mémoire disponible pour l'allocation aux processus |
node_memory_Buffers
|
Mémoire utilisée par le noyau pour la mise en mémoire tampon |
node_memory_Cached
|
Mémoire utilisée par le noyau pour la mise en cache des données du système de fichiers |
node_memory_SwapTotal
|
Espace d'échange total disponible |
node_memory_SwapFree
|
Espace d'échange gratuit |
node_memory_SwapCached
|
Mémoire qui, une fois échangée, est rééchangée mais toujours en cours d'échange |
node_filesystem_avail_bytes
|
Espace disque disponible en octets |
node_filesystem_size_bytes
|
Espace disque total en octets |
node_filesystem_free_bytes
|
Espace disque libre en octets |
node_network_receive_bytes
|
Octets réseau reçus |
node_network_transmit_bytes
|
Octets réseau transmis |
node_disk_read_bytes
|
Octets de disque lus |
node_disk_written_bytes
|
Octets de disque écrits |
NVIDIADCGMtableau de bord des exportateurs
Fournit des informations visualisées sur NVIDIA GPU les mesures collectées par l'NVIDIADCGMexportateur
Types de métriques
-
GPUVue d'ensemble : affichage de GPU l'utilisation, des températures, de la consommation d'énergie et de l'utilisation de la mémoire.
-
Métriques de température : visualisation GPU des températures au fil du temps.
-
Consommation électrique : surveillance de la consommation GPU d'énergie et des tendances en matière de consommation d'énergie.
-
Utilisation de la mémoire : analyse de l'utilisation de GPU la mémoire, notamment de la mémoire utilisée, de la mémoire libre et de la mémoire totale.
-
Vitesse du ventilateur : affichage de la vitesse et des variations du GPU ventilateur.
-
ECCErreurs : suivi des ECC erreurs GPU de mémoire et des erreurs en attente.
Liste des métriques
Le tableau suivant présente une liste des indicateurs qui fournissent des informations sur l'NVIDIAGPUétat et les performances, notamment les fréquences d'horloge, les températures, la consommation d'énergie, l'utilisation de la mémoire, la vitesse des ventilateurs et les mesures d'erreur.
Nom des métriques | Description |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
Fréquence d'horloge SM (inMHz) |
DCGM_FI_DEV_MEM_CLOCK
|
Fréquence de l'horloge de la mémoire (inMHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
Température de la mémoire (en °C) |
DCGM_FI_DEV_GPU_TEMP
|
GPUtempérature (en °C) |
DCGM_FI_DEV_POWER_USAGE
|
Consommation électrique (en W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
Consommation d'énergie totale depuis le démarrage (en mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
Nombre total de PCIe tentatives |
DCGM_FI_DEV_MEM_COPY_UTIL
|
Utilisation de la mémoire (en %) |
DCGM_FI_DEV_ENC_UTIL
|
Utilisation du codeur (en %) |
DCGM_FI_DEV_DEC_UTIL
|
Utilisation du décodeur (en %) |
DCGM_FI_DEV_XID_ERRORS
|
Valeur de la dernière XID erreur rencontrée |
DCGM_FI_DEV_FB_FREE
|
Mémoire tampon d'images libre (en MiB) |
DCGM_FI_DEV_FB_USED
|
Mémoire tampon d'images utilisée (en MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
Nombre total de compteurs de NVLink bande passante pour toutes les voies |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
v État GPU de la licence |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
Nombre de lignes remappées pour les erreurs non corrigeables |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
Nombre de lignes remappées pour les erreurs pouvant être corrigées |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
Si le remappage des lignes a échoué |
EFAtableau de bord des métriques
Fournit des informations visualisées sur les métriques d'Amazon Elastic Fabric Adapter (EFA) équipé sur les instances P collectées par l'exportateur de EFA nœuds
Types de métriques
-
EFAmétriques d'erreur : visualisation des erreurs telles que les erreurs d'allocation, les erreurs de commande et les erreurs de mappage de mémoire.
-
EFAtrafic réseau : surveillance des octets, des paquets et des demandes de travail reçus et transmis.
-
EFARDMAperformance : analyse des opérations de RDMA lecture et d'écriture, y compris les octets transférés et les taux d'erreur.
-
EFAdurée de vie des ports : affichage de la durée de vie des EFA ports au fil du temps.
-
EFApaquets keep-alive : suivi du nombre de paquets keep-alive reçus.
Liste des métriques
Le tableau suivant présente une liste des mesures qui fournissent des informations sur divers aspects du EFA fonctionnement, notamment les erreurs, les commandes terminées, le trafic réseau et l'utilisation des ressources.
Nom des métriques | Description |
---|---|
node_amazonefa_info
|
Données non numériques provenant de /sys/class/infiniband/, la valeur est toujours 1. |
node_amazonefa_lifespan
|
Durée de vie du port |
node_amazonefa_rdma_read_bytes
|
Nombre d'octets lus avec RDMA |
node_amazonefa_rdma_read_resp_bytes
|
Nombre d'octets de réponse de lecture avec RDMA |
node_amazonefa_rdma_read_wr_err
|
Nombre d'erreurs de lecture et d'écriture avec RDMA |
node_amazonefa_rdma_read_wrs
|
Nombre de lecteurs avec RDMA |
node_amazonefa_rdma_write_bytes
|
Nombre d'octets écrits avec RDMA |
node_amazonefa_rdma_write_recv_bytes
|
Nombre d'octets écrits et reçus avec RDMA |
node_amazonefa_rdma_write_wr_err
|
Nombre d'octets écrits avec erreur RDMA |
node_amazonefa_rdma_write_wrs
|
Nombre d'octets écrits wrs RDMA |
node_amazonefa_recv_bytes
|
Nombre d'octets reçus |
node_amazonefa_recv_wrs
|
Nombre d'octets reçus wrs |
node_amazonefa_rx_bytes
|
Nombre d'octets reçus |
node_amazonefa_rx_drops
|
Nombre de paquets abandonnés |
node_amazonefa_rx_pkts
|
Nombre de paquets reçus |
node_amazonefa_send_bytes
|
Nombre d'octets envoyés |
node_amazonefa_send_wrs
|
Nombre de lettres envoyées |
node_amazonefa_tx_bytes
|
Nombre d'octets transmis |
node_amazonefa_tx_pkts
|
Nombre de paquets transmis |
FSxpour le tableau de bord des métriques Lustre
Fournit des informations visualisées sur les métriques du système de fichiers Amazon FSx for Lustre collectées par Amazon CloudWatch.
Note
Le tableau de bord Grafana FSx for Lustre utilise CloudWatch Amazon comme source de données, ce qui est différent des autres tableaux de bord que vous avez configurés pour utiliser Amazon Managed Service for Prometheus. Pour garantir une surveillance et une visualisation précises des métriques relatives à votre système de fichiers FSx for Lustre, configurez le tableau de bord FSx for Lustre pour utiliser Amazon CloudWatch comme source de données, en spécifiant le même Région AWS endroit où votre système de fichiers FSx for Lustre est déployé.
Types de métriques
-
DataReadBytes: nombre d'octets pour les opérations de lecture du système de fichiers.
-
DataWriteBytes: nombre d'octets pour les opérations d'écriture dans le système de fichiers.
-
DataReadOperations: le nombre d'opérations de lecture.
-
DataWriteOperations: le nombre d'opérations d'écriture.
-
MetadataOperations: le nombre d'opérations sur les métadonnées.
-
FreeDataStorageCapacity: quantité de capacité de stockage disponible.