Amazon SageMaker HyperPod
SageMaker HyperPod는 기계 학습(ML) 워크로드를 실행하고 대형 언어 모델(LLM), 확산 모델 및 파운데이션 모델(FM)과 같은 최첨단 모델을 개발하기 위한 탄력적 클러스터를 프로비저닝하는 데 도움이 됩니다. AWS Trainium 및 NVIDIA A100 및 H100 그래픽 처리 장치(GPU)와 같은 수천 개의 액셀러레이터를 기반으로 대규모 컴퓨팅 클러스터를 구축하고 유지하는 데 관련된 차별화되지 않은 헤비 리프트를 제거하여 FM 개발을 가속화합니다.GPUs 액셀러레이터가 실패하면 SageMaker HyperPod의 복원력 기능이 클러스터 인스턴스를 자동으로 감지하고 결함 있는 하드웨어를 즉시 교체하므로 ML 워크로드 실행에 집중할 수 있습니다.
시작하려면 SageMaker HyperPod 사용을 위한 사전 조건를 확인하고, SageMaker HyperPod용 AWS Identity and Access Management를 설정하고, SageMaker HyperPod에서 지원하는 다음 오케스트레이터 옵션 중 하나를 선택합니다.
SageMaker HyperPod의 Slurm 지원
SageMaker HyperPod는 오픈 소스 워크로드 관리자인 Slurm과 통합하여 탄력적 클러스터에서 기계 학습 워크로드를 실행할 수 있도록 지원합니다. SageMaker HyperPod에서 Slurm을 지원하면 Slurm 클러스터 구성을 통해 원활한 클러스터 오케스트레이션이 가능하므로 SageMaker HyperPod 클러스터에서 헤드, 로그인 및 작업자 노드를 설정할 수 있습니다. 또한 이 통합을 통해 클러스터에서 ML 워크로드를 실행하기 위한 Slurm 기반 작업 예약과 작업 예약을 위한 클러스터 노드에 대한 직접 액세스를 용이하게 할 수 있습니다. HyperPod 수명 주기 구성 지원을 사용하면 특정 요구 사항에 맞게 클러스터의 컴퓨팅 환경을 사용자 지정할 수 있습니다. 또한 Amazon SageMaker 분산 훈련 라이브러리를 활용하여 AWS 컴퓨팅 및 네트워크 리소스에서 클러스터의 성능을 최적화할 수 있습니다. 자세한 내용은 Slurm을 사용하여 SageMaker HyperPod 클러스터 오케스트레이션을 참조하세요.
SageMaker HyperPod의 Amazon EKS 지원
또한 SageMaker HyperPod는 Amazon EKS와 통합되어 장기 실행 및 복원력이 뛰어난 컴퓨팅 클러스터에 대한 파운데이션 모델을 대규모로 훈련할 수 있습니다. 이를 통해 클러스터 관리자 사용자는 HyperPod 클러스터를 프로비저닝하고 EKS 제어 영역에 연결하여 동적 용량 관리, 클러스터 인스턴스에 대한 직접 액세스 및 복원력 기능을 사용할 수 있습니다. 데이터 과학자의 경우 HyperPod에서 Amazon EKS 지원을 사용하면 파운데이션 모델 훈련, EKS 클러스터에 대한 추론, Kubeflow PyTorch 훈련을 위한 작업 자동 재개 기능을 위한 컨테이너화된 워크로드를 실행할 수 있습니다. 아키텍처에는 EKS 클러스터(제어 영역)와 VPC 내의 HyperPod 클러스터(작업자 노드) 간의 1대1 매핑이 포함되어 있으므로 대규모 ML 워크로드를 실행하기 위한 긴밀하게 통합된 솔루션을 제공합니다. 자세한 내용은 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터 오케스트레이션을 참조하세요.
AWS 리전 SageMaker HyperPod에서 지원
SageMaker HyperPod는 다음 AWS 리전에서 사용할 수 있습니다.
-
us-east-1
-
us-east-2
-
us-west-2
-
eu-central-1
-
eu-west-1
-
eu-north-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-northeast-1