Valider la configuration de Prometheus sur le nœud principal d'un cluster HyperPod

Une fois que vous avez correctement configuré votre HyperPod cluster installé avec les packages d'exportation, vérifiez si Prometheus est correctement configuré sur le nœud principal de votre cluster. HyperPod

Connectez-vous au nœud principal de votre cluster. Pour obtenir des instructions sur l'accès à un nœud, consultezAccédez aux nœuds SageMaker HyperPod de votre cluster.

Exécutez la commande suivante pour vérifier que le fichier de configuration et de service Prometheus créé par le install_prometheus.sh script de cycle de vie est exécuté sur le nœud du contrôleur. La sortie doit afficher le statut actif sous la formeactive (running).


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Validez le fichier de configuration Prometheus comme suit. La sortie doit être similaire à la suivante, avec trois exportateurs configurés avec les bonnes adresses IP des nœuds de calcul.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Pour vérifier si Prometheus exporte correctement Slurm EFA et les métriquesDCGM, exécutez la curl commande suivante pour Prometheus sur le port du nœud principal. :9090
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
Les métriques étant exportées vers Amazon Managed Service pour Prometheus Workspace via la configuration d'écriture à distance Prometheus depuis le nœud du contrôleur, vous pouvez passer à la rubrique suivante pour configurer les tableaux de bord Amazon Managed Grafana afin d'afficher les métriques.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Installez des packages d'exportation de métriques sur votre HyperPod cluster

Configurer un espace de travail Grafana géré par Amazon