기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon을 통한 SageMaker HyperPod 클러스터 오케스트레이팅 EKS
SageMaker HyperPod 장기간 실행되고 복원력이 뛰어난 컴퓨팅 클러스터에서 기초 모델을 대규모로 교육할 수 있는 SageMaker 관리형 서비스로서, EKS Amazon과 통합하여 컴퓨팅 리소스를 HyperPod 오케스트레이션할 수 있습니다. 다양한 하드웨어 장애를 확인하고 결함이 있는 노드를 자동으로 복구하는 HyperPod 복원력 기능을 갖춘 Amazon EKS 클러스터를 사용하여 몇 주 또는 몇 달에 걸쳐 대규모로 중단 없이 교육 작업을 실행할 수 있습니다.
클러스터 관리자 사용자를 위한 주요 기능은 다음과 같습니다.
-
복원력이 뛰어난 HyperPod 클러스터를 프로비저닝하고 이를 컨트롤 플레인에 연결 EKS
-
노드 추가, 소프트웨어 업데이트, 클러스터 삭제와 같은 동적 용량 관리 지원
-
kubectl
또는 SSM /를 통해 클러스터 인스턴스에 직접 액세스할 수 있도록 합니다. SSH -
기본 상태 점검, 심층 상태 점검, 상태 모니터링 에이전트, 작업 자동 재개 지원 등 복원력 기능 제공 PyTorch
-
아마존 CloudWatch컨테이너 인사이트, 프로메테우스용 아마존매니지드 서비스, 아마존 매니지드 그라파나와 같은 옵저버빌리티 도구와의 통합
데이터 사이언티스트 사용자의 경우 in의 지원을 통해 다음을 수행할 수 있습니다. EKS HyperPod
-
클러스터에서 기초 모델을 교육하기 위한 컨테이너식 워크로드 실행 HyperPod
-
EKS클러스터에서 추론 실행, 및 간의 통합 활용 HyperPod EKS
-
PyTorch Kubeflow
교육을 위한 작업 자동 재개 기능 활용 () PyTorchJob
Amazon EKS 지원의 상위 수준 아키텍처에는 다음 다이어그램과 같이 a VPC 내의 EKS 클러스터 (컨트롤 플레인) 와 HyperPod 클러스터 (작업자 노드) 간의 일대일 매핑이 HyperPod 포함됩니다.