Slurm-Exporter-Dashboard Node Exporter-Dashboard NVIDIADCGMExporter-Dashboard EFADashboard mit Metriken FSxfür das Lustre-Metrik-Dashboard

Referenz für exportierte Metriken

Die folgenden Abschnitte enthalten umfassende Listen von Metriken, die SageMaker HyperPod nach erfolgreicher Konfiguration des AWS CloudFormation Stacks für Observability aus Amazon Managed Service for SageMaker HyperPod Prometheus exportiert wurden. Sie können mit der Überwachung dieser in den Amazon Managed Grafana-Dashboards visualisierten Metriken beginnen.

Slurm-Exporter-Dashboard

Bietet visualisierte Informationen zu Slurm-Clustern auf. SageMaker HyperPod

Arten von Metriken

Cluster-Übersicht: Anzeige der Gesamtzahl der Knoten, Jobs und ihrer Status.
Job-Metriken: Visualisierung der Anzahl und des Status von Jobs im Zeitverlauf.
Knoten-Metriken: Zeigt den Knotenstatus, die Zuweisung und die verfügbaren Ressourcen an.
Partitionsmetriken: Überwachung partitionsspezifischer Metriken wie CPU Arbeitsspeicher und GPU Auslastung.
Arbeitseffizienz: Berechnung der Arbeitseffizienz auf der Grundlage der eingesetzten Ressourcen.

Liste der Metriken

Metrikname	Beschreibung
`slurm_job_count`	Gesamtzahl der Jobs im Slurm-Cluster
`slurm_job_state_count`	Anzahl der Jobs in jedem Status (z. B. läuft, ausstehend, abgeschlossen)
`slurm_node_count`	Gesamtzahl der Knoten im Slurm-Cluster
`slurm_node_state_count`	Anzahl der Knoten in jedem Status (z. B. Idle, Alloc, Mix)
`slurm_partition_node_count`	Anzahl der Knoten in jeder Partition
`slurm_partition_job_count`	Anzahl der Jobs in jeder Partition
`slurm_partition_alloc_cpus`	Gesamtzahl der CPUs in jeder Partition zugewiesenen
`slurm_partition_free_cpus`	Gesamtzahl der CPUs in jeder Partition verfügbaren
`slurm_partition_alloc_memory`	Gesamter zugewiesener Speicher in jeder Partition
`slurm_partition_free_memory`	Insgesamt verfügbarer Speicher in jeder Partition
`slurm_partition_alloc_gpus`	GPUsIn jeder Partition zugewiesener Gesamtbetrag
`slurm_partition_free_gpus`	Insgesamt GPUs in jeder Partition verfügbar

Node Exporter-Dashboard

Stellt visualisierte Informationen zu Systemmetriken bereit, die vom Prometheus-Knotenexporter von den Clusterknoten gesammelt wurden. HyperPod

Arten von Metriken

Systemübersicht: Anzeige der CPU durchschnittlichen Auslastung und der Speichernutzung.
Speichermetriken: Visualisierung der Speicherauslastung, einschließlich Gesamtspeicher, freiem Speicher und Auslagerungsspeicher.
Festplattennutzung: Überwachung der Festplattenauslastung und -verfügbarkeit.
Netzwerkverkehr: Zeigt die im Laufe der Zeit empfangenen und übertragenen Netzwerkbytes an.
Dateisystem-Metriken: Analyse der Nutzung und Verfügbarkeit des Dateisystems.
Festplatten-I/O-Metriken: Visualisierung der Lese- und Schreibaktivität von Festplatten.

Liste der Messwerte

Eine vollständige Liste der exportierten Metriken finden Sie in den Repositorys Node Exporter und procfs GitHub . Die folgende Tabelle zeigt eine Teilmenge der Metriken, die Einblicke in die Auslastung der Systemressourcen wie Auslastung, CPU Speicherauslastung, Festplattenspeicher und Netzwerkaktivität bietet.

Metrikname	Beschreibung
`node_load1`	Durchschnittliche Auslastung von 1 Minute
`node_load5`	Durchschnittslast von 5 Minuten
`node_load15`	Durchschnittslast von 15 Minuten
`node_memory_MemTotal`	Gesamter Systemspeicher
`node_memory_MemFree`	Freier Systemspeicher
`node_memory_MemAvailable`	Verfügbarer Speicher für die Zuweisung zu Prozessen
`node_memory_Buffers`	Speicher, der vom Kernel für die Pufferung verwendet wird
`node_memory_Cached`	Speicher, der vom Kernel für das Zwischenspeichern von Dateisystemdaten verwendet wird
`node_memory_SwapTotal`	Insgesamt verfügbarer Swap-Speicherplatz
`node_memory_SwapFree`	Kostenloser Swap-Speicherplatz
`node_memory_SwapCached`	Speicher, der einmal ausgelagert wurde, wird wieder eingelagert, aber immer noch ausgelagert
`node_filesystem_avail_bytes`	Verfügbarer Festplattenspeicher in Byte
`node_filesystem_size_bytes`	Gesamter Festplattenspeicher in Byte
`node_filesystem_free_bytes`	Freier Festplattenspeicher in Byte
`node_network_receive_bytes`	Empfangene Netzwerk-Bytes
`node_network_transmit_bytes`	Übertragene Netzwerk-Bytes
`node_disk_read_bytes`	Gelesene Festplatten-Bytes
`node_disk_written_bytes`	Geschriebene Festplatten-Bytes

NVIDIADCGMExporter-Dashboard

Bietet visualisierte Informationen zu den vom NVIDIA GPU Exporteur gesammelten Metriken. NVIDIA DCGM

Arten von Metriken

GPUÜberblick: Anzeige GPU von Auslastung, Temperaturen, Stromverbrauch und Speicherverbrauch.
Temperaturmesswerte: Visualisierung von GPU Temperaturen im Zeitverlauf.
Stromverbrauch: Überwachung des GPU Stromverbrauchs und der Trends beim Stromverbrauch.
Speicherauslastung: Analyse der GPU Speichernutzung, einschließlich belegtem, freiem Speicher und Gesamtspeicher.
Lüftergeschwindigkeit: Zeigt GPU Lüftergeschwindigkeiten und -schwankungen an.
ECCFehler: Erfassung von GPU ECC Speicherfehlern und ausstehenden Fehlern.

Liste der Metriken

Die folgende Tabelle enthält eine Liste der Messwerte, die Aufschluss über den NVIDIA GPU Zustand und die Leistung geben, einschließlich Taktfrequenzen, Temperaturen, Stromverbrauch, Speicherauslastung, Lüftergeschwindigkeiten und Fehlermetriken.

Metrikname	Beschreibung
`DCGM_FI_DEV_SM_CLOCK`	SM-Taktfrequenz (inMHz)
`DCGM_FI_DEV_MEM_CLOCK`	Speichertaktfrequenz (inMHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Speichertemperatur (in C)
`DCGM_FI_DEV_GPU_TEMP`	GPUTemperatur (in C)
`DCGM_FI_DEV_POWER_USAGE`	Leistungsaufnahme (in W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Gesamtenergieverbrauch seit dem Start (in mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Gesamtzahl der Wiederholungen PCIe
`DCGM_FI_DEV_MEM_COPY_UTIL`	Speicherauslastung (in%)
`DCGM_FI_DEV_ENC_UTIL`	Encoder-Auslastung (in%)
`DCGM_FI_DEV_DEC_UTIL`	Decoder-Auslastung (in%)
`DCGM_FI_DEV_XID_ERRORS`	Wert des letzten aufgetretenen XID Fehlers
`DCGM_FI_DEV_FB_FREE`	Freier Frame-Pufferspeicher (in MiB)
`DCGM_FI_DEV_FB_USED`	Verwendeter Frame-Pufferspeicher (in MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Gesamtzahl der NVLink Bandbreitenzähler für alle Lanes
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	v GPU Lizenzstatus
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Anzahl der neu zugewiesenen Zeilen für nicht behebbare Fehler
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Anzahl der neu zugewiesenen Zeilen für behebbare Fehler
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Ob die Neuzuweisung von Zeilen fehlgeschlagen ist

EFADashboard mit Metriken

Stellt visualisierte Informationen zu den Metriken von Amazon Elastic Fabric Adapter (EFA) bereit, die auf P-Instances installiert sind, die vom EFANode Exporter gesammelt wurden.

Arten von Metriken

EFAFehlermetriken: Visualisieren von Fehlern wie Zuweisungsfehlern, Befehlsfehlern und Speicherzuordnungsfehlern.
EFANetzwerkverkehr: Überwachung empfangener und übertragener Bytes, Pakete und Arbeitsanfragen.
EFARDMALeistung: Analyse von RDMA Lese- und Schreibvorgängen, einschließlich übertragener Byte und Fehlerraten.
EFAPortlebensdauer: Zeigt die Lebensdauer von EFA Anschlüssen im Zeitverlauf an.
EFAKeep-Alive-Pakete: Verfolgt die Anzahl der empfangenen Keep-Alive-Pakete.

Liste der Metriken

Die folgende Tabelle enthält eine Liste der Metriken, die Einblicke in verschiedene Aspekte des EFA Betriebs bietet, darunter Fehler, abgeschlossene Befehle, Netzwerkverkehr und Ressourcenauslastung.

Metrikname	Beschreibung
`node_amazonefa_info`	Nicht numerische Datenfrom /sys/class/infiniband/, Wert ist immer 1.
`node_amazonefa_lifespan`	Lebensdauer des Anschlusses
`node_amazonefa_rdma_read_bytes`	Anzahl der mit gelesenen Bytes RDMA
`node_amazonefa_rdma_read_resp_bytes`	Anzahl der gelesenen Antwortbytes mit RDMA
`node_amazonefa_rdma_read_wr_err`	Anzahl der Lese- und Schreibfehler mit RDMA
`node_amazonefa_rdma_read_wrs`	Anzahl der Lesevorgänge mit RDMA
`node_amazonefa_rdma_write_bytes`	Anzahl der Byte, die mit geschrieben wurden RDMA
`node_amazonefa_rdma_write_recv_bytes`	Anzahl der geschriebenen und empfangenen Byte mit RDMA
`node_amazonefa_rdma_write_wr_err`	Anzahl der fehlerhaft geschriebenen Byte RDMA
`node_amazonefa_rdma_write_wrs`	Anzahl der geschriebenen Byte wrs RDMA
`node_amazonefa_recv_bytes`	Anzahl der empfangenen Byte
`node_amazonefa_recv_wrs`	Anzahl der empfangenen Byte wrs
`node_amazonefa_rx_bytes`	Anzahl der empfangenen Byte
`node_amazonefa_rx_drops`	Anzahl der verworfenen Pakete
`node_amazonefa_rx_pkts`	Anzahl der empfangenen Pakete
`node_amazonefa_send_bytes`	Anzahl der gesendeten Byte
`node_amazonefa_send_wrs`	Anzahl der gesendeten WRs
`node_amazonefa_tx_bytes`	Anzahl der übertragenen Byte
`node_amazonefa_tx_pkts`	Anzahl der übertragenen Pakete

FSxfür das Lustre-Metrik-Dashboard

Bietet visualisierte Informationen zu den von Amazon FSx für das Lustre-Dateisystem gesammelten Metriken. CloudWatch

Anmerkung

Das Grafana FSx for Lustre-Dashboard verwendet Amazon CloudWatch als Datenquelle, was sich von den anderen Dashboards unterscheidet, die Sie für die Verwendung von Amazon Managed Service für Prometheus konfiguriert haben. Um eine genaue Überwachung und Visualisierung von Metriken zu gewährleisten, die sich auf Ihr FSx for Lustre-Dateisystem beziehen, konfigurieren Sie das FSx for Lustre-Dashboard so, dass Amazon CloudWatch als Datenquelle verwendet wird, und geben Sie an, AWS-Region wo Ihr FSx for Lustre-Dateisystem bereitgestellt wird.

Arten von Metriken

DataReadBytes: Die Anzahl der Byte für Lesevorgänge im Dateisystem.
DataWriteBytes: Die Anzahl der Byte für Schreiboperationen im Dateisystem.
DataReadOperations: Die Anzahl der Lesevorgänge.
DataWriteOperations: Die Anzahl der Schreiboperationen.
MetadataOperations: Die Anzahl der Metadatenoperationen.
FreeDataStorageCapacity: Die Menge der verfügbaren Speicherkapazität.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Richten Sie einen Amazon Managed Grafana-Arbeitsbereich ein

Amazon SageMaker HyperPod Slurm-Metriken