Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod

Fokusmodus

Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Nachdem Sie Ihren HyperPod Cluster erfolgreich mit den Exporter-Paketen installiert haben, überprüfen Sie, ob Prometheus auf dem Hauptknoten Ihres Clusters ordnungsgemäß eingerichtet ist. HyperPod

Connect zum Hauptknoten Ihres Clusters her. Anweisungen zum Zugriff auf einen Knoten finden Sie unterGreifen Sie auf Ihre SageMaker HyperPod Clusterknoten zu.

Führen Sie den folgenden Befehl aus, um zu überprüfen, ob die vom Lifecycle-Skript erstellte Prometheus-Konfiguration und -Servicedatei auf dem Controller-Knoten ausgeführt install_prometheus.sh wird. In der Ausgabe sollte der Status Aktiv als angezeigt werden. active (running)


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Überprüfen Sie die Prometheus-Konfigurationsdatei wie folgt. Die Ausgabe muss der folgenden ähneln, wobei drei Exporter mit den richtigen IP-Adressen für Rechenknoten konfiguriert sind.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Um zu testen, ob Prometheus Slurm-, DCGM- und EFA-Metriken ordnungsgemäß exportiert, führen Sie den folgenden curl Befehl für Prometheus am Port auf dem Hauptknoten aus. :9090
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
Nachdem die Metriken über die Prometheus-Remote-Write-Konfiguration vom Controller-Knoten nach Amazon Managed Service für Prometheus Workspace exportiert wurden, können Sie mit dem nächsten Thema fortfahren, um Amazon Managed Grafana-Dashboards zur Anzeige der Metriken einzurichten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Installieren Sie Metrics Exporter-Pakete auf Ihrem Cluster HyperPod

Richten Sie einen Amazon Managed Grafana-Arbeitsbereich ein

Nächstes Thema:

Richten Sie einen Amazon Managed Grafana-Arbeitsbereich ein

Vorheriges Thema:

Installieren Sie Metrics Exporter-Pakete auf Ihrem Cluster HyperPod

Brauchen Sie Hilfe?

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?

Related resources

Hat Ihnen diese Seite geholfen?

Related resources