Riferimento alle metriche esportate - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riferimento alle metriche esportate

Le seguenti sezioni presentano elenchi completi di metriche esportate da SageMaker HyperPod Amazon Managed Service for Prometheus dopo la corretta configurazione di AWS CloudFormation SageMaker HyperPod stack per l'osservabilità. Puoi iniziare a monitorare queste metriche visualizzate nelle dashboard di Amazon Managed Grafana.

Dashboard di Slurm Exporter

Fornisce informazioni visualizzate sui cluster Slurm su. SageMaker HyperPod

Tipi di metriche

  • Panoramica del cluster: visualizzazione del numero totale di nodi, job e relativi stati.

  • Job Metrics: visualizzazione del numero e dello stato dei lavori nel tempo.

  • Metriche dei nodi: visualizzazione degli stati dei nodi, dell'allocazione e delle risorse disponibili.

  • Metriche delle partizioni: monitoraggio di metriche specifiche della partizione come memoria e utilizzo. CPU GPU

  • Job Efficiency: calcolo dell'efficienza del lavoro in base alle risorse utilizzate.

Elenco delle metriche

Nome parametro Descrizione
slurm_job_count Numero totale di lavori nel cluster Slurm
slurm_job_state_count Numero di lavori in ogni stato (ad esempio, in esecuzione, in sospeso, completati)
slurm_node_count Numero totale di nodi nel cluster Slurm
slurm_node_state_count Numero di nodi in ogni stato (ad es. idle, alloc, mix)
slurm_partition_node_count Numero di nodi in ogni partizione
slurm_partition_job_count Numero di lavori in ogni partizione
slurm_partition_alloc_cpus Numero totale di risorse allocate CPUs in ogni partizione
slurm_partition_free_cpus Numero totale di elementi disponibili CPUs in ogni partizione
slurm_partition_alloc_memory Memoria totale allocata in ogni partizione
slurm_partition_free_memory Memoria totale disponibile in ogni partizione
slurm_partition_alloc_gpus Totale allocato GPUs in ogni partizione
slurm_partition_free_gpus Totale disponibile GPUs in ogni partizione

Dashboard di Node Exporter

Fornisce informazioni visualizzate sulle metriche di sistema raccolte dall'esportatore di nodi Prometheus dai nodi del cluster. HyperPod

Tipi di metriche

  • Panoramica del sistema: visualizzazione delle medie CPU di carico e dell'utilizzo della memoria.

  • Metriche della memoria: visualizzazione dell'utilizzo della memoria, tra cui memoria totale, memoria libera e spazio di swap.

  • Utilizzo del disco: monitoraggio dell'utilizzo e della disponibilità dello spazio su disco.

  • Traffico di rete: visualizzazione dei byte di rete ricevuti e trasmessi nel tempo.

  • Metriche del file system: analisi dell'utilizzo e della disponibilità del file system.

  • Metriche di I/O del disco: visualizzazione dell'attività di lettura e scrittura del disco.

Elenco di metriche

Per un elenco completo delle metriche esportate, consultate i repository Node exporter e procfs. GitHub La tabella seguente mostra un sottoinsieme delle metriche che fornisce informazioni sull'utilizzo delle risorse di sistema, come il CPU carico, l'utilizzo della memoria, lo spazio su disco e l'attività di rete.

Nome parametro Descrizione
node_load1 Caricamento medio di 1 minuto
node_load5 Carico medio in 5 minuti
node_load15 Carico medio di 15 minuti
node_memory_MemTotal Memoria totale del sistema
node_memory_MemFree Memoria di sistema libera
node_memory_MemAvailable Memoria disponibile per l'allocazione ai processi
node_memory_Buffers Memoria utilizzata dal kernel per il buffering
node_memory_Cached Memoria utilizzata dal kernel per la memorizzazione nella cache dei dati del file system
node_memory_SwapTotal Spazio di swap totale disponibile
node_memory_SwapFree Spazio di swap gratuito
node_memory_SwapCached La memoria che una volta era stata scambiata, viene reinserita ma è ancora in modalità swap
node_filesystem_avail_bytes Spazio disponibile su disco in byte
node_filesystem_size_bytes Spazio totale su disco in byte
node_filesystem_free_bytes Spazio libero su disco in byte
node_network_receive_bytes Byte di rete ricevuti
node_network_transmit_bytes Byte di rete trasmessi
node_disk_read_bytes Byte del disco letti
node_disk_written_bytes Byte del disco scritti

NVIDIADCGMdashboard dell'esportatore

Fornisce informazioni visualizzate sulle NVIDIA GPU metriche raccolte dall'esportatore. NVIDIA DCGM

Tipi di metriche

  • GPUPanoramica: visualizzazione GPU dell'utilizzo, delle temperature, del consumo energetico e della memoria.

  • Metriche della temperatura: visualizzazione delle temperature nel tempoGPU.

  • Consumo energetico: monitoraggio dell'assorbimento di GPU energia e delle tendenze del consumo energetico.

  • Utilizzo della memoria: analisi dell'utilizzo GPU della memoria, inclusa la memoria utilizzata, quella libera e quella totale.

  • Velocità della ventola: visualizzazione della velocità e delle variazioni delle GPU ventole.

  • ECCErrori: monitoraggio degli ECC errori GPU di memoria e degli errori in sospeso.

Elenco delle metriche

La tabella seguente mostra un elenco di metriche che forniscono informazioni sullo NVIDIA GPU stato e sulle prestazioni, tra cui frequenze di clock, temperature, consumo energetico, utilizzo della memoria, velocità della ventola e metriche di errore.

Nome parametro Descrizione
DCGM_FI_DEV_SM_CLOCK Frequenza di clock SM (in) MHz
DCGM_FI_DEV_MEM_CLOCK Frequenza di clock della memoria (inMHz)
DCGM_FI_DEV_MEMORY_TEMP Temperatura della memoria (in °C)
DCGM_FI_DEV_GPU_TEMP GPUtemperatura (in C)
DCGM_FI_DEV_POWER_USAGE assorbimento di potenza (in W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Consumo energetico totale dall'avvio (in mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Numero totale di tentativi PCIe
DCGM_FI_DEV_MEM_COPY_UTIL Utilizzo della memoria (in%)
DCGM_FI_DEV_ENC_UTIL Utilizzo dell'encoder (in%)
DCGM_FI_DEV_DEC_UTIL Utilizzo del decoder (in%)
DCGM_FI_DEV_XID_ERRORS Valore dell'ultimo errore riscontrato XID
DCGM_FI_DEV_FB_FREE Memoria frame buffer libera (in MiB)
DCGM_FI_DEV_FB_USED Memoria frame buffer utilizzata (in MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Numero totale di contatori della NVLink larghezza di banda per tutte le corsie
DCGM_FI_DEV_VGPU_LICENSE_STATUS v Stato della licenza GPU
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Numero di righe rimappate per errori non correggibili
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Numero di righe rimappate per errori correggibili
DCGM_FI_DEV_ROW_REMAP_FAILURE Se la rimappatura delle righe non è riuscita

EFAdashboard delle metriche

Fornisce informazioni visualizzate sulle metriche di Amazon Elastic Fabric Adapter (EFA) equipaggiato su istanze P raccolte dall'esportatore del EFA nodo.

Tipi di metriche

  • EFAmetriche degli errori: visualizzazione di errori come errori di allocazione, errori di comando ed errori della mappa di memoria.

  • EFAtraffico di rete: monitoraggio dei byte, dei pacchetti e delle richieste di lavoro ricevuti e trasmessi.

  • EFARDMAprestazioni: analisi delle operazioni di RDMA lettura e scrittura, inclusi i byte trasferiti e i tassi di errore.

  • EFAdurata delle porte: visualizzazione della durata delle porte nel tempo. EFA

  • EFApacchetti keep-alive: monitoraggio del numero di pacchetti keep-alive ricevuti.

Elenco delle metriche

La tabella seguente mostra un elenco di metriche che forniscono informazioni dettagliate su vari aspetti del EFA funzionamento, tra cui errori, comandi completati, traffico di rete e utilizzo delle risorse.

Nome parametro Descrizione
node_amazonefa_info Dati non numerici provenienti da /sys/class/infiniband/, il valore è sempre 1.
node_amazonefa_lifespan Durata della porta
node_amazonefa_rdma_read_bytes Numero di byte letti con RDMA
node_amazonefa_rdma_read_resp_bytes Numero di byte di risposta letti con RDMA
node_amazonefa_rdma_read_wr_err Numero di errori di lettura e scrittura con RDMA
node_amazonefa_rdma_read_wrs Numero di righe di lettura con RDMA
node_amazonefa_rdma_write_bytes Numero di byte scritti con RDMA
node_amazonefa_rdma_write_recv_bytes Numero di byte scritti e ricevuti con RDMA
node_amazonefa_rdma_write_wr_err Numero di byte scritti con errore RDMA
node_amazonefa_rdma_write_wrs Numero di byte scritti wrs RDMA
node_amazonefa_recv_bytes Numero di byte ricevuti
node_amazonefa_recv_wrs Numero di byte ricevuti wrs
node_amazonefa_rx_bytes Numero di byte ricevuti
node_amazonefa_rx_drops Numero di pacchetti eliminati
node_amazonefa_rx_pkts Numero di pacchetti ricevuti
node_amazonefa_send_bytes Numero di byte inviati
node_amazonefa_send_wrs Numero di wrs inviati
node_amazonefa_tx_bytes Numero di byte trasmessi
node_amazonefa_tx_pkts Numero di pacchetti trasmessi

FSxper la dashboard delle metriche di Lustre

Fornisce informazioni visualizzate sulle metriche del file system Amazon FSx for Lustre raccolte da Amazon. CloudWatch

Nota

La dashboard Grafana FSx for Lustre utilizza Amazon CloudWatch come fonte di dati, che si differenzia dalle altre dashboard configurate per utilizzare Amazon Managed Service for Prometheus. Per garantire un monitoraggio e una visualizzazione accurati delle metriche relative al file system FSx for Lustre, configura la dashboard di FSx for Lustre per utilizzare Amazon CloudWatch come fonte di dati, specificando lo stesso Regione AWS dove viene distribuito il file system FSx for Lustre.

Tipi di metriche

  • DataReadBytes: Il numero di byte per le operazioni di lettura del file system.

  • DataWriteBytes: il numero di byte per le operazioni di scrittura del file system.

  • DataReadOperations: Il numero di operazioni di lettura.

  • DataWriteOperations: Il numero di operazioni di scrittura.

  • MetadataOperations: Il numero di operazioni sui metadati.

  • FreeDataStorageCapacity: La quantità di capacità di archiviazione disponibile.