HyperPod 클러스터의 헤드 노드에서 Prometheus 설정 검증 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HyperPod 클러스터의 헤드 노드에서 Prometheus 설정 검증

내보내기 패키지로 설치된 HyperPod 클러스터를 성공적으로 설정한 후 HyperPod 클러스터의 헤드 노드에 Prometheus가 제대로 설정되어 있는지 확인합니다.

  1. 클러스터의 헤드 노드에 연결합니다. 노드에 액세스하는 방법에 대한 지침은 섹션을 참조하세요클러스터 노드에 SageMaker HyperPod 액세스.

  2. 다음 명령을 실행하여 수명 주기 스크립트에서 생성된 Prometheus 구성 및 서비스 파일이 컨트롤러 노드에서 실행 install_prometheus.sh 중인지 확인합니다. 출력은 활성 상태를 로 표시해야 합니다active (running).

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. 다음과 같이 Prometheus 구성 파일을 검증합니다. 출력은 다음과 유사해야 하며, 세 명의 내보내기가 올바른 컴퓨팅 노드 IP 주소로 구성되어 있어야 합니다.

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. Prometheus가 Slurm, DCGM및 EFA 지표를 제대로 내보내고 있는지 테스트하려면 헤드 노드:9090의 포트에 있는 Prometheus에 대해 다음 curl 명령을 실행합니다.

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    컨트롤러 노드에서 Prometheus 원격 쓰기 구성을 통해 Amazon Managed Service for Prometheus Workspace로 내보낸 지표를 사용하여 다음 주제로 이동하여 지표를 표시하도록 Amazon Managed Grafana 대시보드를 설정할 수 있습니다.