쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치

포커스 모드
헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 클러스터를 생성하고 Amazon EKS 클러스터에 연결하기 전에 Kubernetes의 패키지 관리자인 헬름을 사용하여 패키지를 설치해야 합니다. 헬름은 Kubernetes 클러스터의 설치 프로세스를 설정하는 오픈 소스 도구입니다. 종속성 설치를 자동화하고 간소화할 수 있으며 SageMaker HyperPod 클러스터의 오케스트레이터(컨트롤 플레인)로 Amazon EKS 클러스터를 준비하는 데 필요한 다양한 설정을 간소화합니다.

SageMaker HyperPod 서비스 팀은 디바이스/EFA 플러그인, 플러그인, Kubeflow 훈련 운영자 및 관련 권한 구성과 같은 주요 종속성을 번들링하는 Helm 차트 패키지를 제공합니다.

중요

이 헬름 설치 단계는 필수 단계입니다. 제공된 헬름 차트를 사용하여 Amazon EKS 클러스터를 구성하지 않으면 SageMaker HyperPod 클러스터가 올바르게 작동하지 않거나 생성 프로세스가 완전히 실패할 수 있습니다. aws-hyperpod 네임스페이스 이름은 수정할 수 없습니다.

  1. 로컬 머신에 헬름을 설치합니다.

  2. SageMaker HyperPod SageMaker HyperPod CLI 리포지토리에 있는 helm_chart/HyperPodHelmChart에서 제공하는 헬름 차트를 다운로드합니다.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. 헬름 차트의 종속성을 업데이트하고, Kubernetes 클러스터에 적용될 변경 사항을 미리 보고, 헬름 차트를 설치합니다.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

요약하면 헬름 설치는 작업 예약 및 대기열(Kueue), 스토리지 관리, MLflow 통합, Kubeflow를 포함하여 Amazon EKS 클러스터에 대한 다양한 구성 요소를 설정합니다. 또한 차트는 필수 구성 요소인 SageMaker HyperPod 클러스터 복원력 기능과 통합하기 위해 다음 구성 요소를 설치합니다.

  • 상태 모니터링 에이전트 - SageMaker HyperPod에서 제공하는 상태 모니터링 에이전트를 설치합니다. 이는 HyperPod 클러스터를 모니터링하려는 경우에 필요합니다. 상태 모니터링 에이전트는 다음과 같이 Docker 이미지로 제공됩니다. 헬름 차트에 제공된 values.yaml에서 이미지는 사전 설정되어 있습니다. 에이전트는 GPU 기반 인스턴스 및 Trainium 가속기 기반 인스턴스(trn1, trn1n, inf2)를 지원합니다. aws-hyperpod 네임스페이스에 설치됩니다.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • 심층 상태 확인 - SageMaker HyperPod 심층 상태 확인 기능을 활성화하기 위해 ClusterRole, aws-hyperpod 네임스페이스의 ServiceAccount(deep-health-check-service-account) 및 ClusterRoleBinding를 설정합니다. 심층 상태 확인을 위한 Kubernetes RBAC 파일에 대한 자세한 내용은 SageMaker HyperPod CLI GitHub 리포지토리의 deep-health-check-rbac.yaml 구성 파일을 참조하세요.

  • job-auto-restart - SageMaker HyperPod에서 PyTorch 훈련 작업에 대한 자동 재시작 기능을 활성화하기 위해 ClusterRole, aws-hyperpod 네임스페이스의 ServiceAccount(job-auto-restart) 및 ClusterRoleBinding를 설정합니다. job-auto-restart용 Kubernetes RBAC 파일에 대한 자세한 내용은 SageMaker HyperPod CLI GitHub 리포지토리의 job-auto-restart-rbac.yaml 구성 파일을 참조하세요.

  • Kubeflow MPI 연산자 - MPI 연산자는 Kubernetes 클러스터에서 MPI(Message Passing Interface)를 사용하여 분산 기계 학습(ML) 및 고성능 컴퓨팅(HPC) 워크로드 실행을 간소화하는 Kubernetes 연산자입니다. MPI Operator v0.5를 설치합니다. mpi-operator 네임스페이스에 설치됩니다.

  • nvidia-device-plugin – Amazon EKS 클러스터의 컨테이너에서 사용할 NVIDIA GPU를 자동으로 노출할 수 있는 Kubernetes 디바이스 플러그인입니다. 이를 통해 Kubernetes는 해당 컨테이너에 대해 요청된 GPU에 대한 액세스를 할당하고 제공할 수 있습니다. GPU에서 인스턴스 유형을 사용할 때 필요합니다.

  • neuron-device-plugin – Amazon EKS 클러스터의 컨테이너에서 사용할 AWS Inferentia 칩을 자동으로 노출할 수 있는 Kubernetes 디바이스 플러그인입니다. 이를 통해 Kubernetes는 클러스터 노드의 AWS Inferentia 칩에 액세스하고 활용할 수 있습니다. Neuron 인스턴스 유형을 사용할 때 필요합니다.

  • aws-efa-k8s-device-plugin - Amazon EKS 클러스터에서 AWS EFA(Elastic Fabric Adapter)를 사용할 수 있는 Kubernetes 디바이스 플러그인입니다. EFA는 클러스터의 인스턴스 간에 지연 시간이 짧고 처리량이 높은 통신을 제공하는 네트워크 디바이스입니다. EFA 지원 인스턴스 유형을 사용할 때 필요합니다.

제공된 헬름 차트를 사용한 설치 절차에 대한 자세한 내용은 SageMaker HyperPod CLI 리포지토리의 README 파일을 참조하세요.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.