Valide a configuração do Prometheus no nó principal de um cluster HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Valide a configuração do Prometheus no nó principal de um cluster HyperPod

Depois de configurar com sucesso o HyperPod cluster instalado com os pacotes do exportador, verifique se o Prometheus está configurado corretamente no nó principal do seu cluster. HyperPod

  1. Conecte-se ao nó principal do seu cluster. Para obter instruções sobre como acessar um nó, consulteAcesse seus nós SageMaker HyperPod de cluster.

  2. Execute o comando a seguir para verificar se o arquivo de configuração e serviço do Prometheus criado pelo install_prometheus.sh script do ciclo de vida está sendo executado no nó do controlador. A saída deve mostrar o status Ativo comoactive (running).

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. Valide o arquivo de configuração do Prometheus da seguinte forma. A saída deve ser semelhante à seguinte, com três exportadores configurados com os endereços IP corretos do nó de computação.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Para testar se o Prometheus está exportando o Slurm EFA e as métricas corretamenteDCGM, execute o curl comando a seguir para o Prometheus na porta do nó principal. :9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    Com as métricas exportadas para o Amazon Managed Service for Prometheus Workspace por meio da configuração de gravação remota do Prometheus a partir do nó controlador, você pode prosseguir para o próximo tópico para configurar os painéis do Amazon Managed Grafana para exibir as métricas.