Valide a configuração do Prometheus no nó principal de um cluster HyperPod

Depois de configurar com sucesso o HyperPod cluster instalado com os pacotes do exportador, verifique se o Prometheus está configurado corretamente no nó principal do seu cluster. HyperPod

Conecte-se ao nó principal do seu cluster. Para obter instruções sobre como acessar um nó, consulteAcesse seus nós SageMaker HyperPod de cluster.

Execute o comando a seguir para verificar se o arquivo de configuração e serviço do Prometheus criado pelo install_prometheus.sh script do ciclo de vida está sendo executado no nó do controlador. A saída deve mostrar o status Ativo comoactive (running).


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

Valide o arquivo de configuração do Prometheus da seguinte forma. A saída deve ser semelhante à seguinte, com três exportadores configurados com os endereços IP corretos do nó de computação.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Para testar se o Prometheus está exportando o Slurm EFA e as métricas corretamenteDCGM, execute o curl comando a seguir para o Prometheus na porta do nó principal. :9090
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
Com as métricas exportadas para o Amazon Managed Service for Prometheus Workspace por meio da configuração de gravação remota do Prometheus a partir do nó controlador, você pode prosseguir para o próximo tópico para configurar os painéis do Amazon Managed Grafana para exibir as métricas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Instale pacotes de exportação de métricas em seu cluster HyperPod

Configurar um espaço de trabalho Amazon Managed Grafana