HyperPod 클러스터의 헤드 노드에서 Prometheus 설정 검증 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HyperPod 클러스터의 헤드 노드에서 Prometheus 설정 검증

내보내기 패키지와 함께 설치된 HyperPod 클러스터를 성공적으로 설정한 후 HyperPod 클러스터의 헤드 노드에 Prometheus가 제대로 설정되어 있는지 확인합니다.

  1. 클러스터의 헤드 노드에 연결합니다. 노드 액세스 방법에 대한 지침은 클러스터 노드에 SageMaker HyperPod 액세스 섹션을 참조하세요.

  2. 다음 명령을 실행하여 수명 주기 스크립트 install_prometheus.sh에서 생성된 Prometheus 구성 및 서비스 파일이 컨트롤러 노드에서 실행되고 있는지 확인합니다. 출력은 활성 상태를 active (running)로 표시해야 합니다.

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. 다음과 같이 Prometheus 구성 파일을 검증합니다. 출력은 다음과 유사해야 하며, 3개의 내보내기가 올바른 컴퓨팅 노드 IP 주소로 구성되어 있어야 합니다.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Prometheus가 Slurm, DCGM및 EFA 지표를 올바르게 내보내고 있는지 테스트하려면 헤드 노드의 포트에서 Prometheus:9090에 대해 다음 curl 명령을 실행합니다.

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    컨트롤러 노드에서 Prometheus 원격 쓰기 구성을 통해 Amazon Managed Service for Prometheus Workspace로 내보낸 지표를 사용하여 다음 주제로 이동하여 Amazon Managed Grafana 대시보드를 설정하여 지표를 표시할 수 있습니다.