에서 Amazon EKS 지원 시작하기 SageMaker HyperPod - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에서 Amazon EKS 지원 시작하기 SageMaker HyperPod

SageMaker HyperPod 사용을 위한 사전 조건 대한 일반 사항 외에도 Amazon를 사용하여 SageMaker HyperPod 클러스터를 오케스트레이션하기 위한 다음 요구 사항 및 고려 사항을 SageMaker HyperPod확인합니다EKS.

요구 사항

참고

HyperPod 클러스터를 생성하기 전에 Helm을 사용하여 로 구성VPC되고 설치된 실행 중인 Amazon EKS 클러스터가 필요합니다.

Amazon EKS 클러스터를 프로비저닝할 때 다음 사항을 고려하세요.

  1. Kubernetes 버전 지원

    • SageMaker HyperPod 는 Kubernetes 버전 1.28, 1.29 및 1.30을 지원합니다.

  2. Amazon EKS 클러스터 인증 모드

    • 에서 지원하는 Amazon EKS 클러스터의 인증 모드는 API 및 SageMaker HyperPod 입니다API_AND_CONFIG_MAP.

  3. 네트워킹

  4. IAM 역할

  5. Amazon EKS 클러스터 추가 기능

    • Kube-proxy, CoreDNS, Amazon VPC Container Network Interface(CNI) 플러그인, Amazon EKS 포드 자격 증명, 에이전트, GuardDuty Amazon FSx Container Storage Interface(CSI) 드라이버, Mountpoint for Amazon S3 CSI 드라이버, AWS Distro for OpenTelemetry및 Observability 에이전트와 EKS 같이 Amazon에서 CloudWatch 제공하는 다양한 추가 기능을 계속 사용할 수 있습니다.

Amazon을 사용하여 SageMaker HyperPod 클러스터를 구성하기 위한 고려 사항 EKS

  • HyperPod 클러스터 노드에서 실행되는 포드에는 추가 EBS 볼륨을 직접 탑재할 수 없습니다. 대신를 사용하여 HyperPod 노드InstanceStorageConfigs에 추가 EBS 볼륨을 프로비저닝하고 탑재해야 합니다. HyperPod 클러스터를 생성하거나 업데이트하는 동안 새 인스턴스 그룹에 추가 EBS 볼륨만 연결할 수 있다는 점에 유의해야 합니다. 이러한 추가 EBS 볼륨으로 인스턴스 그룹을 구성한 후 Amazon EKS Pod 구성 파일에서 볼륨을 Amazon EKS Pod에 올바르게 탑재/opt/sagemaker하려면 로컬 경로를 로 설정해야 합니다.

  • AmazonEBSCSI(컨테이너 스토리지 인터페이스) 컨트롤러를 HyperPod 노드에 배포할 수 있습니다. 그러나 EBS 볼륨의 탑재 및 탑재 해제를 용이하게 DaemonSet하는 Amazon EBS CSI 노드는 HyperPod 인스턴스가 아닌에서만 실행할 수 있습니다. 예약 제약 조건을 정의하는 데 인스턴스 유형 레이블을 사용하는 경우 접두사가 인 SageMaker AI ML 인스턴스 유형을 사용해야 합니다ml.. 예를 들어 P5 인스턴스의 경우 ml.p5.48xlarge 대신 p5.48xlarge를 사용합니다.

Amazon을 사용하여 SageMaker HyperPod 클러스터용 네트워크를 구성하기 위한 고려 사항 EKS

  • 각 HyperPod 클러스터 인스턴스는 하나의 탄력적 네트워크 인터페이스()를 지원합니다ENI. 인스턴스 유형당 최대 포드 수는 다음 표를 참조하세요.

    인스턴스 유형 최대 포드 수
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • 기본적으로 hostNetwork = true가 있는 포드만 Amazon EC2 인스턴스 메타데이터 서비스(IMDS)에 액세스할 수 있습니다. Amazon EKS Pod 자격 증명 또는 IAM 서비스 계정의 역할(IRSA)을 사용하여 Pod의 AWS 자격 증명에 대한 액세스를 관리합니다.

  • SageMaker HyperPod 클러스터는 현재 IPv4 IP 주소 지정만 지원합니다. IPv6 IP 주소 지정은 현재 지원되지 않습니다.

HyperPod 클러스터 복원력 기능 사용에 대한 고려 사항

  • 노드 자동 교체는 CPU 인스턴스에서 지원되지 않습니다.

  • 노드 자동 복구가 작동하려면 HyperPod 상태 모니터링 에이전트를 설치해야 합니다. 에이전트는 Helm을 사용하여 설치할 수 있습니다. 자세한 내용은 Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치 단원을 참조하십시오.

  • HyperPod 딥 상태 확인 및 상태 모니터링 에이전트는 GPU 및 Trn 인스턴스를 지원합니다.

  • SageMaker AI는 노드가 심층 상태 확인을 받을 때 다음 테인트를 노드에 적용합니다.

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    참고

    DeepHealthChecks가 켜져 있는 인스턴스 그룹의 노드에는 사용자 지정 테인트를 추가할 수 없습니다.

Amazon EKS 클러스터가 실행되면 클러스터를 생성하기 Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치 전에의 지침에 따라 Helm 패키지 관리자를 사용하여 HyperPod 클러스터를 구성합니다.