Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션

SageMaker HyperPod의 Slurm 지원은 기계 학습(ML) 워크로드를 실행하고 대규모 언어 모델(LLM), 확산 모델 및 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 탄력적 클러스터를 프로비저닝하는 데 도움이 됩니다. AWS Trainium 및 NVIDIA A100 및 H100 그래픽 처리 장치(GPU)와 같은 수천 개의 액셀러레이터로 구동되는 대규모 컴퓨팅 클러스터를 구축하고 유지 관리하는 데 수반되는 차별화되지 않은 헤비 리프트를 제거하여 FMs 개발을 가속화합니다.GPUs 액셀러레이터가 실패하면 SageMaker HyperPod의 복원력 기능은 클러스터 인스턴스가 결함 있는 하드웨어를 즉시 자동으로 감지하고 교체하므로 ML 워크로드 실행에 집중할 수 있습니다. 또한 SageMaker HyperPod에서 수명 주기 구성 지원을 통해 필요에 가장 적합한 컴퓨팅 환경을 사용자 지정하고 Amazon SageMaker AI 분산 훈련 라이브러리로 구성하여 최적의 성능을 달성할 수 있습니다 AWS.

클러스터 작동

콘솔 사용자 인터페이스(UI)를 통해 그래픽으로, 명령 AWS 줄 인터페이스(CLI) 또는를 통해 프로그래밍 방식으로 SageMaker HyperPod 클러스터를 생성, 구성 및 유지 관리할 수 있습니다 AWS SDK for Python (Boto3). Amazon VPC를 사용하면 클러스터 네트워크를 보호하고 가장 빠른 처리량을 제공하는 Amazon FSx for Lustre와 같은 VPC의 리소스로 클러스터를 구성할 수도 있습니다. 인스턴스 그룹을 클러스터링하고 클러스터 리소스 및 사용자가 작동할 수 있는 작업을 제한하는 데 다양한 IAM 역할을 부여할 수도 있습니다. 자세한 내용은 SageMaker HyperPod 작업을 참조하십시오.

ML 환경 구성

SageMaker HyperPod는 HyperPod 클러스터에 ML 환경을 설정하는 SageMaker HyperPod DLAMI를 실행합니다. 사용 사례를 지원하는 수명 주기 스크립트를 제공하여 DLAMI에 대한 추가 사용자 지정을 구성할 수 있습니다. 수명 주기 스크립트를 설정하는 방법에 대한 자세한 내용은 SageMaker HyperPod 시작하기에 대한 자습서 및 수명 주기 스크립트를 사용하여 SageMaker HyperPod 클러스터 사용자 지정 섹션을 참조하세요.

작업 예약

HyperPod 클러스터를 성공적으로 생성한 후 클러스터 사용자는 클러스터 노드(예: 헤드 또는 컨트롤러 노드, 로그인 노드, 작업자 노드)에 로그인하고 기계 학습 워크로드 실행을 위한 작업을 예약할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터의 작업을 참조하세요.

하드웨어 장애에 대한 복원력

SageMaker HyperPod는 클러스터 노드에서 상태 확인을 실행하고 워크로드 자동 재개 기능을 제공합니다. HyperPod의 클러스터 복원력 기능을 사용하면 결함이 있는 노드를 16개 이상의 노드가 있는 클러스터의 정상 노드로 교체한 후 마지막으로 저장한 체크포인트에서 워크로드를 재개할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터 복원력을 참조하십시오.

클러스터 생성 및 관리

SageMaker HyperPod 리소스 사용률 지표 및 수명 주기 로그는 Amazon CloudWatch 에서 찾을 수 있으며, SageMaker HyperPod 리소스에 태그를 지정하여 관리할 수 있습니다. 각 CreateCluster API 실행은 <cluster-name>-<timestamp> 형식으로 명명된 고유한 로그 스트림을 생성합니다. 로그 스트림에서 호스트 이름, 실패한 수명 주기 스크립트의 이름, stdout 및 stderr와 같은 실패한 스크립트의 출력을 확인할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터 관리 단원을 참조하십시오.

SageMaker AI 도구와 호환

SageMaker HyperPod를 사용하면 SageMaker AI 분산 데이터 병렬 처리(SMDDP) 라이브러리와 같이 SageMaker AI에서 제공하는 AWS 최적화된 집합 통신 라이브러리로 클러스터를 구성할 수 있습니다. SageMaker SMDDP 라이브러리는 NVIDIA A100 GPU로 구동되는 가장 성능이 뛰어난 SageMaker AI 기계 학습 인스턴스를 위해 AWS 컴퓨팅 및 네트워크 인프라에 최적화된 AllGather 작업을 구현합니다. GPUs 자세한 내용은 HyperPod에서 Slurm을 사용하여 분산 훈련 워크로드 실행을 참조하십시오.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

부록

SageMaker HyperPod 시작하기