Convalida la configurazione di Prometheus sul nodo principale di un cluster HyperPod - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Convalida la configurazione di Prometheus sul nodo principale di un cluster HyperPod

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti exporter, controlla se Prometheus è configurato correttamente sul nodo principale del cluster. HyperPod

  1. Connect al nodo principale del cluster. Per istruzioni sull'accesso a un nodo, consultaAccedi ai nodi SageMaker HyperPod del cluster.

  2. Esegui il comando seguente per verificare che il file di configurazione e servizio di Prometheus creato dallo script del ciclo install_prometheus.sh di vita sia in esecuzione sul nodo controller. L'output dovrebbe mostrare lo stato Attivo come. active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Convalida il file di configurazione di Prometheus come segue. L'output deve essere simile al seguente, con tre esportatori configurati con gli indirizzi IP dei nodi di calcolo corretti.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Per verificare se Prometheus sta esportando Slurm EFA e le metriche correttamenteDCGM, esegui il curl seguente comando per Prometheus sulla porta sul nodo principale. :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Con le metriche esportate in Amazon Managed Service for Prometheus Workspace tramite la configurazione di scrittura remota di Prometheus dal nodo controller, puoi passare all'argomento successivo per configurare le dashboard di Amazon Managed Grafana per visualizzare le metriche.