Référence des métriques exportées - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Référence des métriques exportées

Les sections suivantes présentent des listes complètes de métriques exportées depuis SageMaker HyperPod Amazon Managed Service for Prometheus après la configuration réussie de la pile à des fins d'observabilité AWS CloudFormation . SageMaker HyperPod Vous pouvez commencer à surveiller ces métriques visualisées dans les tableaux de bord Amazon Managed Grafana.

Tableau de bord de l'exportateur Slurm

Fournit des informations visualisées sur les clusters Slurm sur. SageMaker HyperPod

Types de métriques

  • Vue d'ensemble du cluster : affichage du nombre total de nœuds, de tâches et de leurs états.

  • Mesures relatives aux tâches : visualisation du nombre de tâches et de l'état des tâches au fil du temps.

  • Métriques des nœuds : affichage de l'état des nœuds, de leur allocation et des ressources disponibles.

  • Métriques de partition : surveillance des métriques spécifiques aux partitionsCPU, telles que la mémoire et GPU l'utilisation.

  • Efficacité du travail : calcul de l'efficacité du travail en fonction des ressources utilisées.

Liste des métriques

Nom des métriques Description
slurm_job_count Nombre total d'emplois dans le cluster Slurm
slurm_job_state_count Nombre de tâches dans chaque État (par exemple, en cours, en attente, terminées)
slurm_node_count Nombre total de nœuds dans le cluster Slurm
slurm_node_state_count Nombre de nœuds dans chaque état (par exemple, inactif, alloc, mix)
slurm_partition_node_count Nombre de nœuds dans chaque partition
slurm_partition_job_count Nombre de tâches dans chaque partition
slurm_partition_alloc_cpus Nombre total de personnes allouées CPUs dans chaque partition
slurm_partition_free_cpus Nombre total de disques disponibles CPUs dans chaque partition
slurm_partition_alloc_memory Mémoire totale allouée dans chaque partition
slurm_partition_free_memory Mémoire totale disponible dans chaque partition
slurm_partition_alloc_gpus Total alloué GPUs dans chaque partition
slurm_partition_free_gpus Total disponible GPUs dans chaque partition

Tableau de bord Node Exporter

Fournit des informations visualisées sur les métriques du système collectées par l'exportateur de nœuds Prometheus à partir des nœuds du cluster. HyperPod

Types de métriques

  • Présentation du système : affichage des moyennes CPU de charge et de l'utilisation de la mémoire.

  • Indicateurs de mémoire : visualisation de l'utilisation de la mémoire, notamment de la mémoire totale, de la mémoire libre et de l'espace de swap.

  • Utilisation du disque : surveillance de l'utilisation et de la disponibilité de l'espace disque.

  • Trafic réseau : affichage des octets réseau reçus et transmis au fil du temps.

  • Métriques du système de fichiers : analyse de l'utilisation et de la disponibilité du système de fichiers.

  • Métriques d'E/S du disque : visualisation de l'activité de lecture et d'écriture sur le disque.

Liste des métriques

Pour une liste complète des métriques exportées, consultez les GitHub référentiels Node Exporter et procfs. Le tableau suivant présente un sous-ensemble de mesures qui fournissent des informations sur l'utilisation des ressources du système, telles que la CPU charge, l'utilisation de la mémoire, l'espace disque et l'activité réseau.

Nom des métriques Description
node_load1 Charge moyenne sur 1 minute
node_load5 Charge moyenne sur 5 minutes
node_load15 Charge moyenne sur 15 minutes
node_memory_MemTotal Mémoire totale du système
node_memory_MemFree Mémoire système gratuite
node_memory_MemAvailable Mémoire disponible pour l'allocation aux processus
node_memory_Buffers Mémoire utilisée par le noyau pour la mise en mémoire tampon
node_memory_Cached Mémoire utilisée par le noyau pour la mise en cache des données du système de fichiers
node_memory_SwapTotal Espace d'échange total disponible
node_memory_SwapFree Espace d'échange gratuit
node_memory_SwapCached Mémoire qui, une fois échangée, est rééchangée mais toujours en cours d'échange
node_filesystem_avail_bytes Espace disque disponible en octets
node_filesystem_size_bytes Espace disque total en octets
node_filesystem_free_bytes Espace disque libre en octets
node_network_receive_bytes Octets réseau reçus
node_network_transmit_bytes Octets réseau transmis
node_disk_read_bytes Octets de disque lus
node_disk_written_bytes Octets de disque écrits

NVIDIADCGMtableau de bord des exportateurs

Fournit des informations visualisées sur NVIDIA GPU les mesures collectées par l'NVIDIADCGMexportateur.

Types de métriques

  • GPUVue d'ensemble : affichage de GPU l'utilisation, des températures, de la consommation d'énergie et de l'utilisation de la mémoire.

  • Métriques de température : visualisation GPU des températures au fil du temps.

  • Consommation électrique : surveillance de la consommation GPU d'énergie et des tendances en matière de consommation d'énergie.

  • Utilisation de la mémoire : analyse de l'utilisation de GPU la mémoire, notamment de la mémoire utilisée, de la mémoire libre et de la mémoire totale.

  • Vitesse du ventilateur : affichage de la vitesse et des variations du GPU ventilateur.

  • ECCErreurs : suivi des ECC erreurs GPU de mémoire et des erreurs en attente.

Liste des métriques

Le tableau suivant présente une liste des indicateurs qui fournissent des informations sur l'NVIDIAGPUétat et les performances, notamment les fréquences d'horloge, les températures, la consommation d'énergie, l'utilisation de la mémoire, la vitesse des ventilateurs et les mesures d'erreur.

Nom des métriques Description
DCGM_FI_DEV_SM_CLOCK Fréquence d'horloge SM (inMHz)
DCGM_FI_DEV_MEM_CLOCK Fréquence de l'horloge de la mémoire (inMHz)
DCGM_FI_DEV_MEMORY_TEMP Température de la mémoire (en °C)
DCGM_FI_DEV_GPU_TEMP GPUtempérature (en °C)
DCGM_FI_DEV_POWER_USAGE Consommation électrique (en W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Consommation d'énergie totale depuis le démarrage (en mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Nombre total de PCIe tentatives
DCGM_FI_DEV_MEM_COPY_UTIL Utilisation de la mémoire (en %)
DCGM_FI_DEV_ENC_UTIL Utilisation du codeur (en %)
DCGM_FI_DEV_DEC_UTIL Utilisation du décodeur (en %)
DCGM_FI_DEV_XID_ERRORS Valeur de la dernière XID erreur rencontrée
DCGM_FI_DEV_FB_FREE Mémoire tampon d'images libre (en MiB)
DCGM_FI_DEV_FB_USED Mémoire tampon d'images utilisée (en MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Nombre total de compteurs de NVLink bande passante pour toutes les voies
DCGM_FI_DEV_VGPU_LICENSE_STATUS v État GPU de la licence
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Nombre de lignes remappées pour les erreurs non corrigeables
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Nombre de lignes remappées pour les erreurs pouvant être corrigées
DCGM_FI_DEV_ROW_REMAP_FAILURE Si le remappage des lignes a échoué

EFAtableau de bord des métriques

Fournit des informations visualisées sur les métriques d'Amazon Elastic Fabric Adapter (EFA) équipé sur les instances P collectées par l'exportateur de EFA nœuds.

Types de métriques

  • EFAmétriques d'erreur : visualisation des erreurs telles que les erreurs d'allocation, les erreurs de commande et les erreurs de mappage de mémoire.

  • EFAtrafic réseau : surveillance des octets, des paquets et des demandes de travail reçus et transmis.

  • EFARDMAperformance : analyse des opérations de RDMA lecture et d'écriture, y compris les octets transférés et les taux d'erreur.

  • EFAdurée de vie des ports : affichage de la durée de vie des EFA ports au fil du temps.

  • EFApaquets keep-alive : suivi du nombre de paquets keep-alive reçus.

Liste des métriques

Le tableau suivant présente une liste des mesures qui fournissent des informations sur divers aspects du EFA fonctionnement, notamment les erreurs, les commandes terminées, le trafic réseau et l'utilisation des ressources.

Nom des métriques Description
node_amazonefa_info Données non numériques provenant de /sys/class/infiniband/, la valeur est toujours 1.
node_amazonefa_lifespan Durée de vie du port
node_amazonefa_rdma_read_bytes Nombre d'octets lus avec RDMA
node_amazonefa_rdma_read_resp_bytes Nombre d'octets de réponse de lecture avec RDMA
node_amazonefa_rdma_read_wr_err Nombre d'erreurs de lecture et d'écriture avec RDMA
node_amazonefa_rdma_read_wrs Nombre de lecteurs avec RDMA
node_amazonefa_rdma_write_bytes Nombre d'octets écrits avec RDMA
node_amazonefa_rdma_write_recv_bytes Nombre d'octets écrits et reçus avec RDMA
node_amazonefa_rdma_write_wr_err Nombre d'octets écrits avec erreur RDMA
node_amazonefa_rdma_write_wrs Nombre d'octets écrits wrs RDMA
node_amazonefa_recv_bytes Nombre d'octets reçus
node_amazonefa_recv_wrs Nombre d'octets reçus wrs
node_amazonefa_rx_bytes Nombre d'octets reçus
node_amazonefa_rx_drops Nombre de paquets abandonnés
node_amazonefa_rx_pkts Nombre de paquets reçus
node_amazonefa_send_bytes Nombre d'octets envoyés
node_amazonefa_send_wrs Nombre de lettres envoyées
node_amazonefa_tx_bytes Nombre d'octets transmis
node_amazonefa_tx_pkts Nombre de paquets transmis

FSxpour le tableau de bord des métriques Lustre

Fournit des informations visualisées sur les métriques du système de fichiers Amazon FSx for Lustre collectées par Amazon CloudWatch.

Note

Le tableau de bord Grafana FSx for Lustre utilise CloudWatch Amazon comme source de données, ce qui est différent des autres tableaux de bord que vous avez configurés pour utiliser Amazon Managed Service for Prometheus. Pour garantir une surveillance et une visualisation précises des métriques relatives à votre système de fichiers FSx for Lustre, configurez le tableau de bord FSx for Lustre pour utiliser Amazon CloudWatch comme source de données, en spécifiant le même Région AWS endroit où votre système de fichiers FSx for Lustre est déployé.

Types de métriques

  • DataReadBytes: nombre d'octets pour les opérations de lecture du système de fichiers.

  • DataWriteBytes: nombre d'octets pour les opérations d'écriture dans le système de fichiers.

  • DataReadOperations: le nombre d'opérations de lecture.

  • DataWriteOperations: le nombre d'opérations d'écriture.

  • MetadataOperations: le nombre d'opérations sur les métadonnées.

  • FreeDataStorageCapacity: quantité de capacité de stockage disponible.