Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod

Nachdem Sie Ihren HyperPod Cluster erfolgreich mit den Exporter-Paketen installiert haben, überprüfen Sie, ob Prometheus auf dem Hauptknoten Ihres Clusters ordnungsgemäß eingerichtet ist. HyperPod

  1. Connect zum Hauptknoten Ihres Clusters her. Anweisungen zum Zugriff auf einen Knoten finden Sie unterGreifen Sie auf Ihre SageMaker HyperPod Clusterknoten zu.

  2. Führen Sie den folgenden Befehl aus, um zu überprüfen, ob die vom Lifecycle-Skript erstellte Prometheus-Konfiguration und -Servicedatei auf dem Controller-Knoten ausgeführt install_prometheus.sh wird. In der Ausgabe sollte der Status Aktiv als angezeigt werden. active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Überprüfen Sie die Prometheus-Konfigurationsdatei wie folgt. Die Ausgabe muss der folgenden ähneln, wobei drei Exporter mit den richtigen IP-Adressen für Rechenknoten konfiguriert sind.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Um zu testen, ob Prometheus Slurm und EFA Metriken ordnungsgemäß exportiertDCGM, führen Sie den folgenden curl Befehl für Prometheus auf dem Port :9090 auf dem Hauptknoten aus.

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Nachdem die Metriken über die Prometheus-Remote-Write-Konfiguration vom Controller-Knoten in Amazon Managed Service für Prometheus Workspace exportiert wurden, können Sie mit dem nächsten Thema fortfahren, um Amazon Managed Grafana-Dashboards zur Anzeige der Metriken einzurichten.