Valider la configuration de Prometheus sur le nœud principal d'un cluster HyperPod - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Valider la configuration de Prometheus sur le nœud principal d'un cluster HyperPod

Une fois que vous avez correctement configuré votre HyperPod cluster installé avec les packages d'exportation, vérifiez si Prometheus est correctement configuré sur le nœud principal de votre cluster. HyperPod

  1. Connectez-vous au nœud principal de votre cluster. Pour obtenir des instructions sur l'accès à un nœud, consultezAccédez aux nœuds SageMaker HyperPod de votre cluster.

  2. Exécutez la commande suivante pour vérifier que le fichier de configuration et de service Prometheus créé par le install_prometheus.sh script de cycle de vie est exécuté sur le nœud du contrôleur. La sortie doit afficher le statut actif sous la formeactive (running).

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Validez le fichier de configuration Prometheus comme suit. La sortie doit être similaire à la suivante, avec trois exportateurs configurés avec les bonnes adresses IP des nœuds de calcul.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Pour vérifier si Prometheus exporte correctement Slurm EFA et les métriquesDCGM, exécutez la curl commande suivante pour Prometheus sur le port du nœud principal. :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Les métriques étant exportées vers Amazon Managed Service pour Prometheus Workspace via la configuration d'écriture à distance Prometheus depuis le nœud du contrôleur, vous pouvez passer à la rubrique suivante pour configurer les tableaux de bord Amazon Managed Grafana afin d'afficher les métriques.