Convalida la configurazione di Prometheus sul nodo principale di un cluster HyperPod

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti exporter, controlla se Prometheus è configurato correttamente sul nodo principale del cluster. HyperPod

Connect al nodo principale del cluster. Per istruzioni sull'accesso a un nodo, consultaAccedi ai nodi SageMaker HyperPod del cluster.

Esegui il comando seguente per verificare che il file di configurazione e servizio di Prometheus creato dallo script del ciclo install_prometheus.sh di vita sia in esecuzione sul nodo controller. L'output dovrebbe mostrare lo stato Attivo come. active (running)


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Convalida il file di configurazione di Prometheus come segue. L'output deve essere simile al seguente, con tre esportatori configurati con gli indirizzi IP dei nodi di calcolo corretti.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Per verificare se Prometheus sta esportando Slurm EFA e le metriche correttamenteDCGM, esegui il curl seguente comando per Prometheus sulla porta sul nodo principale. :9090
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
Con le metriche esportate in Amazon Managed Service for Prometheus Workspace tramite la configurazione di scrittura remota di Prometheus dal nodo controller, puoi passare all'argomento successivo per configurare le dashboard di Amazon Managed Grafana per visualizzare le metriche.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Installa i pacchetti Metrics Exporter sul tuo cluster HyperPod

Configura uno spazio di lavoro Amazon Managed Grafana