Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod

Fokusmodus
Überprüfen Sie das Prometheus-Setup auf dem Hauptknoten eines Clusters HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Nachdem Sie Ihren HyperPod Cluster erfolgreich mit den Exporter-Paketen installiert haben, überprüfen Sie, ob Prometheus auf dem Hauptknoten Ihres Clusters ordnungsgemäß eingerichtet ist. HyperPod

  1. Connect zum Hauptknoten Ihres Clusters her. Anweisungen zum Zugriff auf einen Knoten finden Sie unterGreifen Sie auf Ihre SageMaker HyperPod Clusterknoten zu.

  2. Führen Sie den folgenden Befehl aus, um zu überprüfen, ob die vom Lifecycle-Skript erstellte Prometheus-Konfiguration und -Servicedatei auf dem Controller-Knoten ausgeführt install_prometheus.sh wird. In der Ausgabe sollte der Status Aktiv als angezeigt werden. active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Überprüfen Sie die Prometheus-Konfigurationsdatei wie folgt. Die Ausgabe muss der folgenden ähneln, wobei drei Exporter mit den richtigen IP-Adressen für Rechenknoten konfiguriert sind.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Um zu testen, ob Prometheus Slurm-, DCGM- und EFA-Metriken ordnungsgemäß exportiert, führen Sie den folgenden curl Befehl für Prometheus am Port auf dem Hauptknoten aus. :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Nachdem die Metriken über die Prometheus-Remote-Write-Konfiguration vom Controller-Knoten nach Amazon Managed Service für Prometheus Workspace exportiert wurden, können Sie mit dem nächsten Thema fortfahren, um Amazon Managed Grafana-Dashboards zur Anzeige der Metriken einzurichten.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.