Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Slurm을 사용한 SageMaker HyperPod 클러스터 오케스트레이팅

의 Slurm 지원을 SageMaker HyperPod 통해 기계 학습 (ML) 워크로드를 실행하고 대규모 언어 모델 (), 확산 모델, 기반 모델 (LLMs) 과 같은 state-of-the-art 모델을 개발하기 위한 탄력적인 클러스터를 프로비저닝할 수 있습니다. FMs 다음과 같이 수천 개의 가속기로 구동되는 대규모 컴퓨팅 클러스터를 구축하고 유지 관리하는 데 수반되는 차별화되지 않은 번거로운 작업을 FMs 제거하여 개발을 가속화합니다. AWS 트레이니엄과 NVIDIA A100 및 H100 그래픽 처리 장치 (). GPUs 가속기에 장애가 발생하면 SageMaker HyperPod 모니터의 복원력 기능이 클러스터 인스턴스에서 결함이 있는 하드웨어를 자동으로 감지하고 즉시 교체하므로 ML 워크로드 실행에 집중할 수 있습니다. 또한 수명 주기 구성 지원을 통해 요구 사항에 가장 적합하도록 컴퓨팅 환경을 사용자 지정하고 Amazon SageMaker 분산 교육 라이브러리로 구성하여 최적의 성능을 달성할 수 있습니다. SageMaker HyperPod AWS.

운영 클러스터

콘솔 사용자 인터페이스 (UI) 를 통해 그래픽으로 SageMaker HyperPod 클러스터를 생성, 구성 및 유지 관리할 수 있으며 다음을 통해 프로그래밍 방식으로 클러스터를 생성, 구성 및 유지 관리할 수 있습니다. AWS 명령줄 인터페이스 () 또는 CLI AWS SDK for Python (Boto3). VPCAmazon을 사용하면 클러스터 네트워크를 보호하고 가장 빠른 처리량을 제공하는 Amazon FSx for Lustre와 같이 자체 리소스로 클러스터를 구성할 수 VPC 있습니다. 또한 클러스터 인스턴스 그룹에 다양한 IAM 역할을 부여하고 클러스터 리소스 및 사용자가 수행할 수 있는 작업을 제한할 수 있습니다. 자세한 내용은 Slurm으로 오케스트레이션된 SageMaker HyperPod 클러스터 관리을 참조하십시오.

ML 환경 구성

SageMaker HyperPod SageMaker HyperPod DLAMI를 실행하여 HyperPod 클러스터에 ML 환경을 설정합니다. 사용 사례를 지원하는 라이프사이클 스크립트를 DLAMI 제공하여 에 대한 추가 사용자 지정을 구성할 수 있습니다. 수명 주기 스크립트를 설정하는 방법에 대한 자세한 내용은 Slurm을 SageMaker HyperPod 사용한 오케스트레이션 시작하기SageMaker HyperPod 수명 주기 구성 모범 사례 을 참조하십시오.

작업 일정 잡기

클러스터를 성공적으로 생성한 후 HyperPod 클러스터 사용자는 클러스터 노드 (예: 헤드 또는 컨트롤러 노드, 로그인 노드, 작업자 노드) 에 로그인하여 기계 학습 워크로드를 실행하기 위한 작업을 예약할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터에서 작업 실행을 참조하십시오.

하드웨어 장애에 대한 복원력

SageMaker HyperPod 클러스터 노드에서 상태 점검을 실행하고 워크로드 자동 재개 기능을 제공합니다. 의 HyperPod 클러스터 복구 기능을 사용하면 16개 이상의 노드가 있는 클러스터에서 결함이 있는 노드를 정상 노드로 교체한 후 마지막으로 저장한 체크포인트에서 워크로드를 재개할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터 레질리언스을 참조하십시오.

클러스터 로깅 및 관리

Amazon에서 SageMaker HyperPod 리소스 사용률 지표와 수명 주기 로그를 찾고 CloudWatch, 태그를 지정하여 SageMaker HyperPod 리소스를 관리할 수 있습니다. 각 CreateCluster API 실행은 <cluster-name>-<timestamp> 형식에 따라 이름이 지정된 고유한 로그 스트림을 생성합니다. 로그 스트림에서 호스트 이름, 실패한 수명 주기 스크립트의 이름, 실패한 스크립트의 출력 (예: 및) 을 확인할 수 stderr 있습니다. stdout 자세한 내용은 SageMaker HyperPod 클러스터 관리 단원을 참조하십시오.

SageMaker 도구와 호환됩니다.

를 사용하여 다음과 SageMaker HyperPod 같이 클러스터를 구성할 수 있습니다. AWS 에서 제공하는 SageMaker 최적화된 집단 통신 라이브러리 (예: SageMaker분산 데이터 병렬화 (SMDDP) 라이브러리) SMDDP라이브러리는 환경에 최적화된 AllGather 작업을 구현합니다. AWS A100으로 NVIDIA 구동되는 가장 성능이 좋은 SageMaker 기계 학습 인스턴스를 위한 컴퓨팅 및 네트워크 인프라. GPUs 자세한 내용은 Slurm을 켠 상태에서 분산 교육 워크로드를 실행하세요. HyperPod 을 참조하십시오.