HyperPod 클러스터에 지표 내보내기 패키지 설치 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HyperPod 클러스터에 지표 내보내기 패키지 설치

SageMaker HyperPod 팀이 제공하는 기본 구성 수명 주기 스크립트에는 다양한 지표 내보내기 패키지의 설치도 포함됩니다. 설치 단계를 활성화하려면 config.py 파일enable_observability=True에서 파라미터를 설정하는 것만 하면 됩니다. 수명 주기 스크립트는 다음 오픈 소스 지표 내보내기 패키지를 사용하여 클러스터를 부트스트랩하도록 설계되었습니다.

이름 스크립트 배포 대상 노드 내보내기 설명
Prometheus용 Slurm 내보내기 헤드(컨트롤러) 노드

Slurm 계정 지표를 내보냅니다.

탄력적 패브릭 어댑터(EFA) 노드 내보내기

컴퓨팅 노드

클러스터 노드 및 에서 지표를 내보냅니다EFA. 패키지는 Prometheus 노드 내보내기 의 포크입니다.

NVIDIA 데이터 센터 GPU 관리(DCGM) 내보내기

컴퓨팅 노드

의 상태 및 성능에 대한 NVIDIA DCGM 지표를 내보냅니다NVIDIAGPUs.

config.py 파일의 lifecycle_script.py enable_observability=True를 사용하면 스크립트에서 다음 설치 단계가 활성화됩니다.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

컴퓨팅 노드에서 스크립트는 NVIDIA 데이터 센터 GPU 관리(DCGM) 내보내기와 탄력적 패브릭 어댑터(EFA) 노드 내보내기를 설치합니다. DCGM 내보내기는 NVIDIA 에서 지표를 수집하여 GPU 사용량GPUs, 성능 및 상태를 모니터링할 수 있는 Prometheus의 내보내기입니다. 반면 EFA 노드 내보내기는 EFA 네트워크 인터페이스와 관련된 지표를 수집하며, 이는 HPC 클러스터의 지연 시간이 짧고 대역폭이 높은 통신에 필수적입니다.

헤드 노드에서 스크립트는 Prometheus용 Slurm 내보내기 및 Prometheus 오픈 소스 소프트웨어 를 설치합니다. Slurm 내보내기는 Prometheus에 Slurm 작업, 파티션 및 노드 상태와 관련된 지표를 제공합니다.

수명 주기 스크립트는 모든 내보내기 패키지를 도커 컨테이너로 설치하도록 설계되었으므로 Docker 패키지도 헤드 노드와 컴퓨팅 노드 모두에 설치해야 합니다. 이러한 구성 요소에 대한 스크립트는 Awsome Distributed Training GitHub 리포지토리utils 폴더에 편리하게 제공됩니다.

내보내기 패키지로 설치된 HyperPod 클러스터를 성공적으로 설정한 후 다음 주제로 이동하여 Amazon Managed Service for Prometheus 및 Amazon Managed Grafana 설정을 완료합니다.