기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HyperPod 클러스터의 헤드 노드에서 Prometheus 설정 검증
내보내기 패키지로 설치된 HyperPod 클러스터를 성공적으로 설정한 후 HyperPod 클러스터의 헤드 노드에 Prometheus가 제대로 설정되어 있는지 확인합니다.
-
클러스터의 헤드 노드에 연결합니다. 노드에 액세스하는 방법에 대한 지침은 섹션을 참조하세요클러스터 노드에 SageMaker HyperPod 액세스.
-
다음 명령을 실행하여 수명 주기 스크립트에서 생성된 Prometheus 구성 및 서비스 파일이 컨트롤러 노드에서 실행
install_prometheus.sh
중인지 확인합니다. 출력은 활성 상태를 로 표시해야 합니다active (running)
.$
sudo systemctl status prometheus
• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:
active (running)
since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
다음과 같이 Prometheus 구성 파일을 검증합니다. 출력은 다음과 유사해야 하며, 세 명의 내보내기가 올바른 컴퓨팅 노드 IP 주소로 구성되어 있어야 합니다.
$
cat /etc/prometheus/prometheus.yml
global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
-
Prometheus가 Slurm, DCGM및 EFA 지표를 제대로 내보내고 있는지 테스트하려면 헤드 노드
:9090
의 포트에 있는 Prometheus에 대해 다음curl
명령을 실행합니다.$
curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
컨트롤러 노드에서 Prometheus 원격 쓰기 구성을 통해 Amazon Managed Service for Prometheus Workspace로 내보낸 지표를 사용하여 다음 주제로 이동하여 지표를 표시하도록 Amazon Managed Grafana 대시보드를 설정할 수 있습니다.