기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
클러스터에 메트릭 익스포터 패키지를 설치합니다. HyperPod
SageMaker HyperPod 팀에서 제공하는 기본 구성 라이프사이클 스크립트에는 다양한 메트릭 익스포터 패키지 설치도 포함됩니다. 설치 단계를 활성화하려면 config.py
enable_observability=True
설정하기만 하면 됩니다. 라이프사이클 스크립트는 다음과 같은 오픈 소스 메트릭 익스포터 패키지를 사용하여 클러스터를 부트스트랩하도록 설계되었습니다.
이름 | 스크립트 배포 대상 노드 | 익스포터 설명 |
Prometheus의 슬럼 수출업체 |
헤드 (컨트롤러) 노드 |
Slurm Accounting 메트릭을 내보냅니다. |
컴퓨팅 노드 |
클러스터 노드 및 에서 메트릭을 내보냅니다EFA. 패키지는 Prometheus |
|
컴퓨팅 노드 |
의 상태 및 성능에 대한 NVIDIA DCGM 메트릭을 내보냅니다 NVIDIAGPUs. |
config.py
enable_observability=True
lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
컴퓨팅 노드에서 스크립트는 NVIDIA 데이터 센터 GPU 관리 (DCGM) 내보내기와 Elastic Fabric 어댑터 (EFA) 노드 내보내기를 설치합니다. DCGM익스포터는 Prometheus의 익스포터로서 지표를 수집하여 사용량 NVIDIAGPUs, 성능 및 상태를 모니터링할 수 있도록 합니다. GPU 반면 EFA 노드 익스포터는 클러스터에서 지연 시간이 짧고 대역폭이 높은 통신에 필수적인 EFA 네트워크 인터페이스와 관련된 메트릭을 수집합니다. HPC
헤드 노드에 스크립트는 Prometheus용 Slurm 익스포터와 Prometheus 오픈 소스 소프트웨어를 설치합니다.
라이프사이클 스크립트는 모든 익스포터 패키지를 docker 컨테이너로 설치하도록 설계되었으므로 Docker 패키지도 헤드 노드와 컴퓨팅 노드 모두에 설치해야 합니다. 이러한 구성 요소의 스크립트는 Awsome Distributed Training utils
익스포터 패키지와 함께 설치된 HyperPod 클러스터를 성공적으로 설정한 후 다음 주제로 진행하여 Prometheus용 Amazon Managed Service 및 Amazon Managed Grafana용 설정을 완료하십시오.