Valide la configuración de Prometheus en el nodo principal de un clúster HyperPod - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Valide la configuración de Prometheus en el nodo principal de un clúster HyperPod

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, compruebe si Prometheus está correctamente configurado en el nodo principal del clúster. HyperPod

  1. Conéctese al nodo principal del clúster. Para obtener instrucciones sobre cómo acceder a un nodo, consulteAcceda a los nodos SageMaker HyperPod de su clúster.

  2. Ejecute el siguiente comando para comprobar que el archivo de configuración y servicio de Prometheus creado por el install_prometheus.sh script de ciclo de vida se esté ejecutando en el nodo de la controladora. El resultado debería mostrar el estado Activo como. active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Valide el archivo de configuración de Prometheus de la siguiente manera. El resultado debe ser similar al siguiente, con tres exportadores configurados con las direcciones IP de los nodos de cómputo correctas.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Para comprobar si Prometheus exporta Slurm EFA y las métricas correctamenteDCGM, ejecuta el siguiente curl comando para Prometheus en el puerto del nodo principal. :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Con las métricas exportadas a Amazon Managed Service para Prometheus Workspace a través de la configuración de escritura remota de Prometheus desde el nodo del controlador, puede continuar con el siguiente tema para configurar los paneles de Amazon Managed Grafana para mostrar las métricas.