HyperPod 클러스터의 헤드 노드에서 Prometheus 설정 검증

내보내기 패키지와 함께 설치된 HyperPod 클러스터를 성공적으로 설정한 후 HyperPod 클러스터의 헤드 노드에 Prometheus가 제대로 설정되어 있는지 확인합니다.

클러스터의 헤드 노드에 연결합니다. 노드 액세스 방법에 대한 지침은 클러스터 노드에 SageMaker HyperPod 액세스 섹션을 참조하세요.

다음 명령을 실행하여 수명 주기 스크립트 install_prometheus.sh에서 생성된 Prometheus 구성 및 서비스 파일이 컨트롤러 노드에서 실행되고 있는지 확인합니다. 출력은 활성 상태를 active (running)로 표시해야 합니다.


$ sudo systemctl status prometheus
• prometheus service - Prometheus Exporter
Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
Main PID: 12345 (prometheus)
Tasks: 7 (limit: 9281)
Memory: 35M
CPU: 234ms
CGroup: /system.slice/prometheus.service
        -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml

다음과 같이 Prometheus 구성 파일을 검증합니다. 출력은 다음과 유사해야 하며, 3개의 내보내기가 올바른 컴퓨팅 노드 IP 주소로 구성되어 있어야 합니다.


$ cat /etc/prometheus/prometheus.yml
global:
  scrape_interval: 15s
  evaluation_interval: 15s
  scrape_timeout: 15s

scrape_configs:
  - job_name: 'slurm_exporter'
    static_configs:
      - targets:
          - 'localhost:8080'
  - job_name: 'dcgm_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9400'
          - '<ComputeNodeIP>:9400'
  - job_name: 'efa_node_exporter'
    static_configs:
      - targets:
          - '<ComputeNodeIP>:9100'
          - '<ComputeNodeIP>:9100'

remote_write:
  - url: <AMPReoteWriteURL>
    queue_config:
      max_samples_per_send: 1000
      max_shards: 200
      capacity: 2500
    sigv4:
      region: <Region>

Prometheus가 Slurm, DCGM및 EFA 지표를 올바르게 내보내고 있는지 테스트하려면 헤드 노드의 포트에서 Prometheus:9090에 대해 다음 curl 명령을 실행합니다.
```
$ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
```
컨트롤러 노드에서 Prometheus 원격 쓰기 구성을 통해 Amazon Managed Service for Prometheus Workspace로 내보낸 지표를 사용하여 다음 주제로 이동하여 Amazon Managed Grafana 대시보드를 설정하여 지표를 표시할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

HyperPod 클러스터에 지표 내보내기 패키지 설치

Amazon Managed Grafana 작업 영역 설정