Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riferimento alle metriche esportate
Le seguenti sezioni presentano elenchi completi di metriche esportate da SageMaker HyperPod Amazon Managed Service for Prometheus dopo la corretta configurazione dello stack per l'osservabilità. AWS CloudFormation SageMaker HyperPod Puoi iniziare a monitorare queste metriche visualizzate nelle dashboard di Amazon Managed Grafana.
Dashboard di Slurm Exporter
Fornisce informazioni visualizzate sui cluster Slurm su. SageMaker HyperPod
Tipi di metriche
-
Panoramica del cluster: visualizzazione del numero totale di nodi, job e relativi stati.
-
Job Metrics: visualizzazione del numero e dello stato dei lavori nel tempo.
-
Metriche dei nodi: visualizzazione degli stati dei nodi, dell'allocazione e delle risorse disponibili.
-
Metriche delle partizioni: monitoraggio di metriche specifiche della partizione come memoria e utilizzo. CPU GPU
-
Job Efficiency: calcolo dell'efficienza del lavoro in base alle risorse utilizzate.
Elenco delle metriche
Nome parametro | Descrizione |
---|---|
slurm_job_count |
Numero totale di lavori nel cluster Slurm |
slurm_job_state_count |
Numero di lavori in ogni stato (ad esempio, in esecuzione, in sospeso, completati) |
slurm_node_count
|
Numero totale di nodi nel cluster Slurm |
slurm_node_state_count
|
Numero di nodi in ogni stato (ad es. idle, alloc, mix) |
slurm_partition_node_count
|
Numero di nodi in ogni partizione |
slurm_partition_job_count
|
Numero di lavori in ogni partizione |
slurm_partition_alloc_cpus
|
Numero totale di risorse allocate CPUs in ogni partizione |
slurm_partition_free_cpus
|
Numero totale di elementi disponibili CPUs in ogni partizione |
slurm_partition_alloc_memory
|
Memoria totale allocata in ogni partizione |
slurm_partition_free_memory
|
Memoria totale disponibile in ogni partizione |
slurm_partition_alloc_gpus
|
Totale allocato GPUs in ogni partizione |
slurm_partition_free_gpus
|
Totale disponibile GPUs in ogni partizione |
Dashboard di Node Exporter
Fornisce informazioni visualizzate sulle metriche di sistema raccolte dall'esportatore di nodi Prometheus dai nodi del cluster
Tipi di metriche
-
Panoramica del sistema: visualizzazione delle medie CPU di carico e dell'utilizzo della memoria.
-
Metriche della memoria: visualizzazione dell'utilizzo della memoria, inclusi memoria totale, memoria libera e spazio di swap.
-
Utilizzo del disco: monitoraggio dell'utilizzo e della disponibilità dello spazio su disco.
-
Traffico di rete: visualizzazione dei byte di rete ricevuti e trasmessi nel tempo.
-
Metriche del file system: analisi dell'utilizzo e della disponibilità del file system.
-
Metriche di I/O del disco: visualizzazione dell'attività di lettura e scrittura del disco.
Elenco di metriche
Per un elenco completo delle metriche esportate, consultate i repository Node exporter
Nome parametro | Descrizione |
---|---|
node_load1
|
Caricamento medio di 1 minuto |
node_load5
|
Carico medio in 5 minuti |
node_load15
|
Carico medio di 15 minuti |
node_memory_MemTotal
|
Memoria totale del sistema |
node_memory_MemFree
|
Memoria di sistema libera |
node_memory_MemAvailable
|
Memoria disponibile per l'allocazione ai processi |
node_memory_Buffers
|
Memoria utilizzata dal kernel per il buffering |
node_memory_Cached
|
Memoria utilizzata dal kernel per la memorizzazione nella cache dei dati del file system |
node_memory_SwapTotal
|
Spazio di swap totale disponibile |
node_memory_SwapFree
|
Spazio di swap gratuito |
node_memory_SwapCached
|
La memoria che una volta era stata scambiata, viene reinserita ma è ancora in modalità swap |
node_filesystem_avail_bytes
|
Spazio disponibile su disco in byte |
node_filesystem_size_bytes
|
Spazio totale su disco in byte |
node_filesystem_free_bytes
|
Spazio libero su disco in byte |
node_network_receive_bytes
|
Byte di rete ricevuti |
node_network_transmit_bytes
|
Byte di rete trasmessi |
node_disk_read_bytes
|
Byte del disco letti |
node_disk_written_bytes
|
Byte del disco scritti |
NVIDIADCGMdashboard dell'esportatore
Fornisce informazioni visualizzate sulle NVIDIA GPU metriche raccolte dall'esportatore. NVIDIA DCGM
Tipi di metriche
-
GPUPanoramica: visualizzazione GPU dell'utilizzo, delle temperature, del consumo energetico e della memoria.
-
Metriche della temperatura: visualizzazione delle temperature nel tempoGPU.
-
Consumo energetico: monitoraggio dell'assorbimento di GPU energia e delle tendenze del consumo energetico.
-
Utilizzo della memoria: analisi dell'utilizzo GPU della memoria, inclusa la memoria utilizzata, quella libera e quella totale.
-
Velocità della ventola: visualizzazione della velocità e delle variazioni delle GPU ventole.
-
ECCErrori: monitoraggio degli ECC errori GPU di memoria e degli errori in sospeso.
Elenco delle metriche
La tabella seguente mostra un elenco di metriche che forniscono informazioni sullo NVIDIA GPU stato e sulle prestazioni, tra cui frequenze di clock, temperature, consumo energetico, utilizzo della memoria, velocità della ventola e metriche di errore.
Nome parametro | Descrizione |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
Frequenza di clock SM (in) MHz |
DCGM_FI_DEV_MEM_CLOCK
|
Frequenza di clock della memoria (inMHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
Temperatura della memoria (in °C) |
DCGM_FI_DEV_GPU_TEMP
|
GPUtemperatura (in C) |
DCGM_FI_DEV_POWER_USAGE
|
assorbimento di potenza (in W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
Consumo energetico totale dall'avvio (in mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
Numero totale di tentativi PCIe |
DCGM_FI_DEV_MEM_COPY_UTIL
|
Utilizzo della memoria (in%) |
DCGM_FI_DEV_ENC_UTIL
|
Utilizzo dell'encoder (in%) |
DCGM_FI_DEV_DEC_UTIL
|
Utilizzo del decoder (in%) |
DCGM_FI_DEV_XID_ERRORS
|
Valore dell'ultimo errore riscontrato XID |
DCGM_FI_DEV_FB_FREE
|
Memoria frame buffer libera (in MiB) |
DCGM_FI_DEV_FB_USED
|
Memoria frame buffer utilizzata (in MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
Numero totale di contatori della NVLink larghezza di banda per tutte le corsie |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
v Stato della licenza GPU |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
Numero di righe rimappate per errori non correggibili |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
Numero di righe rimappate per errori correggibili |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
Se la rimappatura delle righe non è riuscita |
EFAdashboard delle metriche
Fornisce informazioni visualizzate sulle metriche di Amazon Elastic Fabric Adapter (EFA) equipaggiato su istanze P raccolte dall'esportatore del EFA nodo.
Tipi di metriche
-
EFAmetriche degli errori: visualizzazione di errori come errori di allocazione, errori di comando ed errori della mappa di memoria.
-
EFAtraffico di rete: monitoraggio dei byte, dei pacchetti e delle richieste di lavoro ricevuti e trasmessi.
-
EFARDMAprestazioni: analisi delle operazioni di RDMA lettura e scrittura, inclusi i byte trasferiti e i tassi di errore.
-
EFAdurata delle porte: visualizzazione della durata delle porte nel tempo. EFA
-
EFApacchetti keep-alive: monitoraggio del numero di pacchetti keep-alive ricevuti.
Elenco delle metriche
La tabella seguente mostra un elenco di metriche che forniscono informazioni dettagliate su vari aspetti del EFA funzionamento, tra cui errori, comandi completati, traffico di rete e utilizzo delle risorse.
Nome parametro | Descrizione |
---|---|
node_amazonefa_info
|
Dati non numerici provenienti da /sys/class/infiniband/, il valore è sempre 1. |
node_amazonefa_lifespan
|
Durata della porta |
node_amazonefa_rdma_read_bytes
|
Numero di byte letti con RDMA |
node_amazonefa_rdma_read_resp_bytes
|
Numero di byte di risposta letti con RDMA |
node_amazonefa_rdma_read_wr_err
|
Numero di errori di lettura e scrittura con RDMA |
node_amazonefa_rdma_read_wrs
|
Numero di righe di lettura con RDMA |
node_amazonefa_rdma_write_bytes
|
Numero di byte scritti con RDMA |
node_amazonefa_rdma_write_recv_bytes
|
Numero di byte scritti e ricevuti con RDMA |
node_amazonefa_rdma_write_wr_err
|
Numero di byte scritti con errore RDMA |
node_amazonefa_rdma_write_wrs
|
Numero di byte scritti wrs RDMA |
node_amazonefa_recv_bytes
|
Numero di byte ricevuti |
node_amazonefa_recv_wrs
|
Numero di byte ricevuti wrs |
node_amazonefa_rx_bytes
|
Numero di byte ricevuti |
node_amazonefa_rx_drops
|
Numero di pacchetti eliminati |
node_amazonefa_rx_pkts
|
Numero di pacchetti ricevuti |
node_amazonefa_send_bytes
|
Numero di byte inviati |
node_amazonefa_send_wrs
|
Numero di wrs inviati |
node_amazonefa_tx_bytes
|
Numero di byte trasmessi |
node_amazonefa_tx_pkts
|
Numero di pacchetti trasmessi |
FSxper la dashboard delle metriche di Lustre
Fornisce informazioni visualizzate sulle metriche del file system Amazon FSx for Lustre raccolte da Amazon. CloudWatch
Nota
La dashboard Grafana FSx for Lustre utilizza Amazon CloudWatch come fonte di dati, che si differenzia dalle altre dashboard configurate per utilizzare Amazon Managed Service for Prometheus. Per garantire un monitoraggio e una visualizzazione accurati delle metriche relative al file system FSx for Lustre, configura la dashboard FSx for Lustre per utilizzare Amazon CloudWatch come fonte di dati, specificando lo stesso Regione AWS luogo in cui viene distribuito il file system FSx for Lustre.
Tipi di metriche
-
DataReadBytes: Il numero di byte per le operazioni di lettura del file system.
-
DataWriteBytes: il numero di byte per le operazioni di scrittura del file system.
-
DataReadOperations: Il numero di operazioni di lettura.
-
DataWriteOperations: Il numero di operazioni di scrittura.
-
MetadataOperations: Il numero di operazioni sui metadati.
-
FreeDataStorageCapacity: La quantità di capacità di archiviazione disponibile.