Amazon을 통한 SageMaker HyperPod 클러스터 오케스트레이팅 EKS - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon을 통한 SageMaker HyperPod 클러스터 오케스트레이팅 EKS

SageMaker HyperPod 장기간 실행되고 복원력이 뛰어난 컴퓨팅 클러스터에서 기초 모델을 대규모로 교육할 수 있는 SageMaker 관리형 서비스로서, EKS Amazon과 통합하여 컴퓨팅 리소스를 HyperPod 오케스트레이션할 수 있습니다. 다양한 하드웨어 장애를 확인하고 결함이 있는 노드를 자동으로 복구하는 HyperPod 복원력 기능을 갖춘 Amazon EKS 클러스터를 사용하여 몇 주 또는 몇 달에 걸쳐 대규모로 중단 없이 교육 작업을 실행할 수 있습니다.

클러스터 관리자 사용자를 위한 주요 기능은 다음과 같습니다.

데이터 사이언티스트 사용자의 경우 in의 지원을 통해 다음을 수행할 수 있습니다. EKS HyperPod

  • 클러스터에서 기초 모델을 교육하기 위한 컨테이너식 워크로드 실행 HyperPod

  • EKS클러스터에서 추론 실행, 및 간의 통합 활용 HyperPod EKS

  • PyTorch Kubeflow 교육을 위한 작업 자동 재개 기능 활용 () PyTorchJob

Amazon EKS 지원의 상위 수준 아키텍처에는 다음 다이어그램과 같이 a VPC 내의 EKS 클러스터 (컨트롤 플레인) 와 HyperPod 클러스터 (작업자 노드) 간의 일대일 매핑이 HyperPod 포함됩니다.

EKS and HyperPod VPC architecture with control plane, 클러스터 nodes, and AWS 서비스.