Referenz für exportierte Metriken - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Referenz für exportierte Metriken

Die folgenden Abschnitte enthalten umfassende Listen von Metriken, die SageMaker HyperPod nach erfolgreicher Konfiguration des AWS CloudFormation Stacks für Observability aus Amazon Managed Service for SageMaker HyperPod Prometheus exportiert wurden. Sie können mit der Überwachung dieser in den Amazon Managed Grafana-Dashboards visualisierten Metriken beginnen.

Slurm-Exporter-Dashboard

Bietet visualisierte Informationen zu Slurm-Clustern auf. SageMaker HyperPod

Arten von Metriken

  • Cluster-Übersicht: Anzeige der Gesamtzahl der Knoten, Jobs und ihrer Status.

  • Job-Metriken: Visualisierung der Anzahl und des Status von Jobs im Zeitverlauf.

  • Knoten-Metriken: Zeigt den Knotenstatus, die Zuweisung und die verfügbaren Ressourcen an.

  • Partitionsmetriken: Überwachung partitionsspezifischer Metriken wie CPU Arbeitsspeicher und GPU Auslastung.

  • Arbeitseffizienz: Berechnung der Arbeitseffizienz auf der Grundlage der eingesetzten Ressourcen.

Liste der Metriken

Metrikname Beschreibung
slurm_job_count Gesamtzahl der Jobs im Slurm-Cluster
slurm_job_state_count Anzahl der Jobs in jedem Status (z. B. läuft, ausstehend, abgeschlossen)
slurm_node_count Gesamtzahl der Knoten im Slurm-Cluster
slurm_node_state_count Anzahl der Knoten in jedem Status (z. B. Idle, Alloc, Mix)
slurm_partition_node_count Anzahl der Knoten in jeder Partition
slurm_partition_job_count Anzahl der Jobs in jeder Partition
slurm_partition_alloc_cpus Gesamtzahl der CPUs in jeder Partition zugewiesenen
slurm_partition_free_cpus Gesamtzahl der CPUs in jeder Partition verfügbaren
slurm_partition_alloc_memory Gesamter zugewiesener Speicher in jeder Partition
slurm_partition_free_memory Insgesamt verfügbarer Speicher in jeder Partition
slurm_partition_alloc_gpus GPUsIn jeder Partition zugewiesener Gesamtbetrag
slurm_partition_free_gpus Insgesamt GPUs in jeder Partition verfügbar

Node Exporter-Dashboard

Stellt visualisierte Informationen zu Systemmetriken bereit, die vom Prometheus-Knotenexporter von den Clusterknoten gesammelt wurden. HyperPod

Arten von Metriken

  • Systemübersicht: Anzeige der CPU durchschnittlichen Auslastung und der Speichernutzung.

  • Speichermetriken: Visualisierung der Speicherauslastung, einschließlich Gesamtspeicher, freiem Speicher und Auslagerungsspeicher.

  • Festplattennutzung: Überwachung der Festplattenauslastung und -verfügbarkeit.

  • Netzwerkverkehr: Zeigt die im Laufe der Zeit empfangenen und übertragenen Netzwerkbytes an.

  • Dateisystem-Metriken: Analyse der Nutzung und Verfügbarkeit des Dateisystems.

  • Festplatten-I/O-Metriken: Visualisierung der Lese- und Schreibaktivität von Festplatten.

Liste der Metriken

Eine vollständige Liste der exportierten Metriken finden Sie in den Repositorys Node Exporter und procfs GitHub . Die folgende Tabelle zeigt eine Teilmenge der Metriken, die Einblicke in die Auslastung der Systemressourcen wie Auslastung, CPU Speicherauslastung, Festplattenspeicher und Netzwerkaktivität bietet.

Metrikname Beschreibung
node_load1 Durchschnittliche Auslastung von 1 Minute
node_load5 Durchschnittslast von 5 Minuten
node_load15 Durchschnittslast von 15 Minuten
node_memory_MemTotal Gesamter Systemspeicher
node_memory_MemFree Freier Systemspeicher
node_memory_MemAvailable Verfügbarer Speicher für die Zuweisung zu Prozessen
node_memory_Buffers Speicher, der vom Kernel für die Pufferung verwendet wird
node_memory_Cached Speicher, der vom Kernel für das Zwischenspeichern von Dateisystemdaten verwendet wird
node_memory_SwapTotal Insgesamt verfügbarer Swap-Speicherplatz
node_memory_SwapFree Kostenloser Swap-Speicherplatz
node_memory_SwapCached Speicher, der einmal ausgelagert wurde, wird wieder eingelagert, ist aber immer noch ausgelagert
node_filesystem_avail_bytes Verfügbarer Festplattenspeicher in Byte
node_filesystem_size_bytes Gesamter Festplattenspeicher in Byte
node_filesystem_free_bytes Freier Festplattenspeicher in Byte
node_network_receive_bytes Empfangene Netzwerk-Bytes
node_network_transmit_bytes Übertragene Netzwerk-Bytes
node_disk_read_bytes Gelesene Festplatten-Bytes
node_disk_written_bytes Geschriebene Festplatten-Bytes

NVIDIADCGMExporter-Dashboard

Bietet visualisierte Informationen zu den vom NVIDIA GPU Exporteur gesammelten Metriken. NVIDIA DCGM

Arten von Metriken

  • GPUÜberblick: Anzeige GPU von Auslastung, Temperaturen, Stromverbrauch und Speicherverbrauch.

  • Temperaturmesswerte: Visualisierung von GPU Temperaturen im Zeitverlauf.

  • Stromverbrauch: Überwachung des GPU Stromverbrauchs und der Trends beim Stromverbrauch.

  • Speicherauslastung: Analyse der GPU Speichernutzung, einschließlich belegtem, freiem Speicher und Gesamtspeicher.

  • Lüftergeschwindigkeit: Zeigt GPU Lüftergeschwindigkeiten und -schwankungen an.

  • ECCFehler: Erfassung von GPU ECC Speicherfehlern und ausstehenden Fehlern.

Liste der Metriken

Die folgende Tabelle enthält eine Liste der Messwerte, die Aufschluss über den NVIDIA GPU Zustand und die Leistung geben, einschließlich Taktfrequenzen, Temperaturen, Stromverbrauch, Speicherauslastung, Lüftergeschwindigkeiten und Fehlermetriken.

Metrikname Beschreibung
DCGM_FI_DEV_SM_CLOCK SM-Taktfrequenz (inMHz)
DCGM_FI_DEV_MEM_CLOCK Speichertaktfrequenz (inMHz)
DCGM_FI_DEV_MEMORY_TEMP Speichertemperatur (in C)
DCGM_FI_DEV_GPU_TEMP GPUTemperatur (in C)
DCGM_FI_DEV_POWER_USAGE Leistungsaufnahme (in W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Gesamtenergieverbrauch seit dem Start (in mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Gesamtzahl der Wiederholungen PCIe
DCGM_FI_DEV_MEM_COPY_UTIL Speicherauslastung (in%)
DCGM_FI_DEV_ENC_UTIL Encoder-Auslastung (in%)
DCGM_FI_DEV_DEC_UTIL Decoder-Auslastung (in%)
DCGM_FI_DEV_XID_ERRORS Wert des letzten aufgetretenen XID Fehlers
DCGM_FI_DEV_FB_FREE Freier Frame-Pufferspeicher (in MiB)
DCGM_FI_DEV_FB_USED Verwendeter Frame-Pufferspeicher (in MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Gesamtzahl der NVLink Bandbreitenzähler für alle Lanes
DCGM_FI_DEV_VGPU_LICENSE_STATUS v GPU Lizenzstatus
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Anzahl der neu zugewiesenen Zeilen für nicht behebbare Fehler
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Anzahl der neu zugewiesenen Zeilen für behebbare Fehler
DCGM_FI_DEV_ROW_REMAP_FAILURE Ob die Neuzuweisung von Zeilen fehlgeschlagen ist

EFADashboard mit Metriken

Stellt visualisierte Informationen zu den Metriken von Amazon Elastic Fabric Adapter (EFA) bereit, die auf P-Instances installiert sind, die vom EFANode Exporter gesammelt wurden.

Arten von Metriken

  • EFAFehlermetriken: Visualisieren von Fehlern wie Zuweisungsfehlern, Befehlsfehlern und Speicherzuordnungsfehlern.

  • EFANetzwerkverkehr: Überwachung empfangener und übertragener Bytes, Pakete und Arbeitsanfragen.

  • EFARDMALeistung: Analyse von RDMA Lese- und Schreibvorgängen, einschließlich übertragener Byte und Fehlerraten.

  • EFAPortlebensdauer: Zeigt die Lebensdauer von EFA Anschlüssen im Zeitverlauf an.

  • EFAKeep-Alive-Pakete: Verfolgt die Anzahl der empfangenen Keep-Alive-Pakete.

Liste der Metriken

Die folgende Tabelle enthält eine Liste der Metriken, die Einblicke in verschiedene Aspekte des EFA Betriebs bietet, darunter Fehler, abgeschlossene Befehle, Netzwerkverkehr und Ressourcenauslastung.

Metrikname Beschreibung
node_amazonefa_info Nicht numerische Daten aus /sys/class/infiniband/, Wert ist immer 1.
node_amazonefa_lifespan Lebensdauer des Anschlusses
node_amazonefa_rdma_read_bytes Anzahl der mit gelesenen Bytes RDMA
node_amazonefa_rdma_read_resp_bytes Anzahl der gelesenen Antwortbytes mit RDMA
node_amazonefa_rdma_read_wr_err Anzahl der Lese- und Schreibfehler mit RDMA
node_amazonefa_rdma_read_wrs Anzahl der Lesevorgänge mit RDMA
node_amazonefa_rdma_write_bytes Anzahl der mit geschriebenen Bytes RDMA
node_amazonefa_rdma_write_recv_bytes Anzahl der geschriebenen und empfangenen Byte mit RDMA
node_amazonefa_rdma_write_wr_err Anzahl der fehlerhaft geschriebenen Byte RDMA
node_amazonefa_rdma_write_wrs Anzahl der geschriebenen Byte wrs RDMA
node_amazonefa_recv_bytes Anzahl der empfangenen Byte
node_amazonefa_recv_wrs Anzahl der empfangenen Byte wrs
node_amazonefa_rx_bytes Anzahl der empfangenen Byte
node_amazonefa_rx_drops Anzahl der verworfenen Pakete
node_amazonefa_rx_pkts Anzahl der empfangenen Pakete
node_amazonefa_send_bytes Anzahl der gesendeten Byte
node_amazonefa_send_wrs Anzahl der gesendeten WRs
node_amazonefa_tx_bytes Anzahl der übertragenen Byte
node_amazonefa_tx_pkts Anzahl der übertragenen Pakete

FSxfür das Lustre-Metrik-Dashboard

Stellt visualisierte Informationen zu den von Amazon FSx für das Lustre-Dateisystem gesammelten Metriken bereit. CloudWatch

Anmerkung

Das Grafana FSx for Lustre-Dashboard verwendet Amazon CloudWatch als Datenquelle, was sich von den anderen Dashboards unterscheidet, die Sie für die Verwendung von Amazon Managed Service für Prometheus konfiguriert haben. Um eine genaue Überwachung und Visualisierung von Metriken zu gewährleisten, die sich auf Ihr FSx for Lustre-Dateisystem beziehen, konfigurieren Sie das FSx for Lustre-Dashboard so, dass Amazon CloudWatch als Datenquelle verwendet wird, und geben Sie an, AWS-Region wo Ihr FSx for Lustre-Dateisystem bereitgestellt wird.

Arten von Metriken

  • DataReadBytes: Die Anzahl der Byte für Lesevorgänge im Dateisystem.

  • DataWriteBytes: Die Anzahl der Byte für Schreiboperationen im Dateisystem.

  • DataReadOperations: Die Anzahl der Lesevorgänge.

  • DataWriteOperations: Die Anzahl der Schreiboperationen.

  • MetadataOperations: Die Anzahl der Metadatenoperationen.

  • FreeDataStorageCapacity: Die Menge der verfügbaren Speicherkapazität.