Installieren Sie Metrics Exporter-Pakete auf Ihrem Cluster HyperPod - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Installieren Sie Metrics Exporter-Pakete auf Ihrem Cluster HyperPod

Zu den vom SageMaker HyperPod Team bereitgestellten Lebenszyklusskripten für die Basiskonfiguration gehört auch die Installation verschiedener Metrik-Exporter-Pakete. Um den Installationsschritt zu aktivieren, müssen Sie lediglich den Parameter enable_observability=True in der config.pyDatei festlegen. Die Lifecycle-Skripte dienen dazu, Ihren Cluster mit den folgenden Open-Source-Metrik-Exporter-Paketen zu booten.

Name Zielknoten für die Skriptbereitstellung Beschreibung des Exportprogramms
Slurm-Exporteur für Prometheus Hauptknoten (Controller)

Exportiert die Kennzahlen von Slurm Accounting.

Knoten-Exportprogramm für Elastic Fabric Adapter (EFA)

Knoten berechnen

Exportiert Metriken aus Clusterknoten undEFA. Das Paket ist ein Fork des Prometheus-Node-Exporters.

NVIDIAExportprogramm für GPU Rechenzentrumsmanagement () DCGM

Knoten berechnen

Exportiert NVIDIA DCGM Metriken zum Zustand und zur Leistung von NVIDIAGPUs.

Mit enable_observability=True in der config.pyDatei ist der folgende Installationsschritt im lifecycle_script.pyScript aktiviert.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

Auf den Rechenknoten installiert das Skript den NVIDIA Data Center GPU Management (DCGM) -Exporter und den Elastic Fabric Adapter (EFA) -Node-Exporter. Der DCGM Exporter ist ein Exporter für Prometheus, der Metriken von sammelt und so die Überwachung von GPU Nutzung NVIDIAGPUs, Leistung und Zustand ermöglicht. Der EFA Node-Exporter hingegen sammelt Metriken zur EFA Netzwerkschnittstelle, was für die Kommunikation mit niedriger Latenz und hoher Bandbreite in Clustern unerlässlich ist. HPC

Auf dem Hauptknoten installiert das Skript den Slurm-Exporter für Prometheus und die Open-Source-Software Prometheus. Der Slurm-Exporter stellt Prometheus Metriken zu Slurm-Jobs, Partitionen und Knotenzuständen zur Verfügung.

Beachten Sie, dass die Lifecycle-Skripte so konzipiert sind, dass sie alle Exportpakete als Docker-Container installieren. Daher sollte das Docker-Paket auch sowohl auf dem Head- als auch auf dem Compute-Knoten installiert werden. Die Skripte für diese Komponenten befinden sich praktischerweise im utilsOrdner des Awsome Distributed Training Repositorys. GitHub

Nachdem Sie Ihren HyperPod Cluster erfolgreich mit den Exportpaketen installiert haben, fahren Sie mit dem nächsten Thema fort, um die Einrichtung von Amazon Managed Service für Prometheus und Amazon Managed Grafana abzuschließen.