기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod에 대한 일반 사항 SageMaker HyperPod 사용을 위한 사전 조건 외에도 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터를 오케스트레이션하기 위한 다음 요구 사항 및 고려 사항을 확인합니다.
요구 사항
참고
HyperPod 클러스터를 생성하기 전에 VPC로 구성되고 Helm을 사용하여 설치된 실행 중인 Amazon EKS 클러스터가 필요합니다.
-
SageMaker AI 콘솔을 사용하는 경우 HyperPod 클러스터 콘솔 페이지에서 Amazon EKS 클러스터를 생성할 수 있습니다. 자세한 내용은 SageMaker HyperPod 클러스터 생성 단원을 참조하십시오.
-
AWS CLI를 사용하는 경우 연결할 HyperPod 클러스터를 생성하기 전에 Amazon EKS 클러스터를 생성해야 합니다. 자세한 내용은 Amazon EKS 사용 설명서의 Amazon EKS 클러스터 생성을 참조하세요.
Amazon EKS 클러스터를 프로비저닝할 때 다음을 고려합니다.
-
Kubernetes 버전 지원
-
SageMaker HyperPod는 Kubernetes 버전 1.28, 1.29, 1.30 및 1.31을 지원합니다.
-
-
Amazon EKS 클러스터 인증 모드
-
SageMaker HyperPod에서 지원하는 Amazon EKS 클러스터의 인증 모드는
API
및API_AND_CONFIG_MAP
입니다.
-
-
네트워킹
-
SageMaker HyperPod에는 Amazon VPC 컨테이너 네트워크 인터페이스(CNI) 플러그인 버전 1.18.3 이상이 필요합니다.
참고
AWS Kubernetes용 VPC CNI 플러그인
은 SageMaker HyperPod에서 지원하는 유일한 CNI입니다. -
VPC의 서브넷 유형은 HyperPod 클러스터에 대해 프라이빗이어야 합니다.
-
-
IAM 역할
-
HyperPod에 필요한 IAM 역할이 AWS Identity and Access Management SageMaker HyperPod용 섹션에 안내된 대로 설정되어 있는지 확인합니다.
-
-
Amazon EKS 클러스터 추가 기능
-
Kube-proxy, CoreDNS, Amazon VPC 컨테이너 네트워크 인터페이스(CNI) 플러그인, Amazon EKS 포드 자격 증명, GuardDuty 에이전트, Amazon FSx 컨테이너 스토리지 인터페이스(CSI) 드라이버, Mountpoint for Amazon S3 CSI 드라이버, Distro for OpenTelemetry 및 CloudWatch Observability 에이전트와 같이 Amazon EKS에서 제공하는 다양한 추가 기능을 계속 사용할 수 있습니다. AWS OpenTelemetry CloudWatch
-
Amazon EKS로 SageMaker HyperPod 클러스터를 구성하기 위한 고려 사항
-
노드 유형에 따라 고유한 IAM 역할을 사용해야 합니다. HyperPod 노드의 경우를 기반으로 하는 역할을 사용합니다SageMaker HyperPod의 IAM 역할. Amazon EKS 노드의 경우 Amazon EKS 노드 IAM 역할을 참조하세요.
-
HyperPod 클러스터 노드에서 실행되는 포드에는 추가 EBS 볼륨을 직접 탑재할 수 없습니다. 대신 InstanceStorageConfigs를 사용하여 HyperPod 노드에 추가 EBS 볼륨을 프로비저닝하고 탑재해야 합니다. HyperPod 클러스터를 생성하거나 업데이트하는 동안 새 인스턴스 그룹에 추가 EBS 볼륨만 연결할 수 있다는 점에 유의해야 합니다. 이러한 추가 EBS 볼륨으로 인스턴스 그룹을 구성한 후에는 Amazon EKS Pod 구성 파일에서 볼륨을 Amazon EKS Pod에 제대로 탑재하려면 로컬 경로
를 /opt/sagemaker
로 설정해야 합니다. -
Amazon EBS CSI(컨테이너 스토리지 인터페이스) 컨트롤러를 HyperPod 노드에 배포할 수 있습니다. 그러나 EBS 볼륨의 탑재 및 탑재 해제를 용이하게 하는 Amazon EBS CSI 노드 DaemonSet 는 비-HyperPod 인스턴스에서만 실행할 수 있습니다.
-
예약 제약 조건을 정의하기 위해 인스턴스 유형 레이블을 사용하는 경우 접두사가 인 SageMaker AI ML 인스턴스 유형을 사용해야 합니다
ml.
. 예를 들어 P5 인스턴스의 경우ml.p5.48xlarge
대신p5.48xlarge
를 사용합니다.
Amazon EKS를 사용하여 SageMaker HyperPod 클러스터용 네트워크를 구성하기 위한 고려 사항
-
각 HyperPod 클러스터 인스턴스는 하나의 Elastic Network Interface(ENI)를 지원합니다. 인스턴스 유형당 최대 포드 수는 다음 표를 참조하세요.
인스턴스 유형 최대 포드 수 ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
hostNetwork = true
가 있는 포드만 기본적으로 Amazon EC2 인스턴스 메타데이터 서비스(IMDS)에 액세스할 수 있습니다. Amazon EKS Pod 자격 증명 또는 서비스 계정의 IAM 역할(IRSA)을 사용하여 Pod의 AWS 자격 증명에 대한 액세스를 관리합니다. -
SageMaker HyperPod 클러스터는 현재 IPv4 IP 주소 지정만 지원합니다. IPv6 IP 주소 지정은 현재 지원되지 않습니다.
HyperPod 클러스터 복원력 기능 사용에 대한 고려 사항
-
노드 자동 교체는 CPU 인스턴스에서 지원되지 않습니다.
-
노드 자동 복구가 작동하려면 HyperPod 상태 모니터링 에이전트를 설치해야 합니다. 에이전트는 Helm을 사용하여 설치할 수 있습니다. 자세한 내용은 헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치 섹션을 참조하세요.
-
HyperPod 심층 상태 확인 및 상태 모니터링 에이전트는 GPU 및 Trn 인스턴스를 지원합니다.
-
SageMaker AI는 노드가 심층 상태 확인을 거치는 경우 노드에 다음 테인트를 적용합니다.
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
참고
DeepHealthChecks
가 켜져 있는 인스턴스 그룹의 노드에는 사용자 지정 테인트를 추가할 수 없습니다.
Amazon EKS 클러스터가 실행되면 HyperPod 클러스터를 생성하기 전에 헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치의 지침에 따라 Helm 패키지 관리자를 사용하여 클러스터를 구성합니다.