클러스터에 메트릭 익스포터 패키지를 설치합니다. HyperPod - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

클러스터에 메트릭 익스포터 패키지를 설치합니다. HyperPod

SageMaker HyperPod 팀에서 제공하는 기본 구성 라이프사이클 스크립트에는 다양한 메트릭 익스포터 패키지 설치도 포함됩니다. 설치 단계를 활성화하려면 config.py파일에 매개변수를 enable_observability=True 설정하기만 하면 됩니다. 라이프사이클 스크립트는 다음과 같은 오픈 소스 메트릭 익스포터 패키지를 사용하여 클러스터를 부트스트랩하도록 설계되었습니다.

이름 스크립트 배포 대상 노드 익스포터 설명
Prometheus의 슬럼 수출업체 헤드 (컨트롤러) 노드

Slurm Accounting 메트릭을 내보냅니다.

엘라스틱 패브릭 어댑터 (EFA) 노드 익스포터

컴퓨팅 노드

클러스터 노드 및 에서 메트릭을 내보냅니다EFA. 패키지는 Prometheus 노드 익스포터의 포크입니다.

NVIDIA데이터센터 GPU 관리 () 익스포터 DCGM

컴퓨팅 노드

의 상태 및 성능에 대한 NVIDIA DCGM 메트릭을 내보냅니다 NVIDIAGPUs.

config.py파일을 사용하면 enable_observability=True lifecycle_script.py스크립트에서 다음 설치 단계가 활성화됩니다.

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

컴퓨팅 노드에서 스크립트는 NVIDIA 데이터 센터 GPU 관리 (DCGM) 내보내기와 Elastic Fabric 어댑터 (EFA) 노드 내보내기를 설치합니다. DCGM익스포터는 Prometheus의 익스포터로서 지표를 수집하여 사용량 NVIDIAGPUs, 성능 및 상태를 모니터링할 수 있도록 합니다. GPU 반면 EFA 노드 익스포터는 클러스터에서 지연 시간이 짧고 대역폭이 높은 통신에 필수적인 EFA 네트워크 인터페이스와 관련된 메트릭을 수집합니다. HPC

헤드 노드에 스크립트는 Prometheus용 Slurm 익스포터와 Prometheus 오픈 소스 소프트웨어를 설치합니다. Slurm 익스포터는 Prometheus에 Slurm 작업, 파티션 및 노드 상태와 관련된 메트릭을 제공합니다.

라이프사이클 스크립트는 모든 익스포터 패키지를 docker 컨테이너로 설치하도록 설계되었으므로 Docker 패키지도 헤드 노드와 컴퓨팅 노드 모두에 설치해야 합니다. 이러한 구성 요소의 스크립트는 Awsome Distributed Training utils리포지토리의 폴더에서 편리하게 제공됩니다. GitHub

익스포터 패키지와 함께 설치된 HyperPod 클러스터를 성공적으로 설정한 후 다음 주제로 진행하여 Prometheus용 Amazon Managed Service 및 Amazon Managed Grafana용 설정을 완료하십시오.