Valide la configuración de Prometheus en el nodo principal de un clúster HyperPod

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, compruebe si Prometheus está correctamente configurado en el nodo principal del clúster. HyperPod

Conéctese al nodo principal del clúster. Para obtener instrucciones sobre cómo acceder a un nodo, consulteAcceda a los nodos SageMaker HyperPod de su clúster.

Ejecute el siguiente comando para comprobar que el archivo de configuración y servicio de Prometheus creado por el install_prometheus.sh script de ciclo de vida se esté ejecutando en el nodo de la controladora. El resultado debería mostrar el estado Activo como. active (running)


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Valide el archivo de configuración de Prometheus de la siguiente manera. El resultado debe ser similar al siguiente, con tres exportadores configurados con las direcciones IP de los nodos de cómputo correctas.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Para comprobar si Prometheus exporta Slurm EFA y las métricas correctamenteDCGM, ejecuta el siguiente curl comando para Prometheus en el puerto del nodo principal. :9090
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
Con las métricas exportadas a Amazon Managed Service para Prometheus Workspace a través de la configuración de escritura remota de Prometheus desde el nodo del controlador, puede continuar con el siguiente tema para configurar los paneles de Amazon Managed Grafana para mostrar las métricas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Instale paquetes de exportación de métricas en su clúster HyperPod

Configura un espacio de trabajo de Grafana gestionado por Amazon