Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Helm을 사용하여 Amazon EKS 클러스터에 패키지 설치

클러스터를 생성하여 Amazon SageMaker HyperPod EKS 클러스터에 연결하기 전에 Kubernetes의 패키지 관리자인 Helm을 사용하여 패키지를 설치해야 합니다. 헬름은 쿠버네티스 클러스터의 설치 프로세스를 설정하기 위한 오픈 소스 도구입니다. 이를 통해 종속성 설치를 자동화하고 간소화할 수 있으며 Amazon EKS 클러스터를 클러스터의 오케스트레이터 (컨트롤 플레인) 로 준비하는 데 필요한 다양한 설정을 간소화할 수 있습니다. SageMaker HyperPod

SageMaker HyperPod 서비스 팀은 EFA 장치/플러그인, Kueue, Kubeflow Training Operator 및 관련 권한 구성과 같은 주요 종속성을 번들로 제공하는 헬름 차트 패키지를 제공합니다.

중요

이 헬름 설치 단계는 필수 단계입니다. 제공된 Helm 차트를 사용하여 Amazon EKS 클러스터를 구성하지 못하면 SageMaker HyperPod 클러스터가 제대로 작동하지 않거나 생성 프로세스가 완전히 실패할 수 있습니다. aws-hyperpod네임스페이스 이름은 수정할 수 없습니다.

  1. 로컬 컴퓨터에 Helm을 설치합니다.

  2. SageMaker HyperPod 리포지토리에 있는 helm_chart/HyperPodHelmChart 에서 제공하는 헬름 차트를 다운로드하세요. SageMaker HyperPod CLI

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. 헬름 차트의 종속성을 업데이트하고, 쿠버네티스 클러스터에 적용될 변경 사항을 미리 보고, 헬름 차트를 설치하세요.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

요약하면, Helm 설치는 작업 예약 및 대기열 (Kueue), 스토리지 관리, 통합 및 Kubeflow를 포함하여 Amazon EKS 클러스터의 다양한 구성 요소를 설정합니다. MLflow 또한 차트는 필수 구성 요소인 클러스터 복원력 기능과 통합하기 위한 다음 구성 요소를 설치합니다. SageMaker HyperPod

  • 건강 모니터링 에이전트 — 에서 제공하는 상태 모니터링 에이전트를 설치합니다. SageMaker HyperPod HyperPod 클러스터를 모니터링하려는 경우 이 작업이 필요합니다. 상태 모니터링 에이전트는 다음과 같이 Docker 이미지로 제공됩니다. 헬름 차트에 제공된 values.yaml에는 이미지가 사전 설정되어 있습니다. 에이전트는 GPU 기반 인스턴스와 T rainium-accelerator-based 인스턴스 (,,) 를 지원합니다. trn1 trn1n inf2 aws-hyperpod네임스페이스에 설치됩니다.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • 심층 상태 점검 — SageMaker HyperPod 심층 상태 점검 서비스 계정 및 ClusterRole ClusterRoleBinding 네임스페이스를 설정합니다. aws-hyperpod

  • Kubeflow MPI 오퍼레이터MPI오퍼레이터는 쿠버네티스 클러스터에서 메시지 전달 인터페이스 () 를 사용하여 분산 머신 러닝 (ML) 및 고성능 컴퓨팅 HPC () 워크로드 실행을 간소화하는 쿠버네티스 오퍼레이터입니다. MPI MPI오퍼레이터 v0.5를 설치합니다. 네임스페이스에 mpi-operator 설치됩니다.

  • nvidia-device-plugin— Amazon 클러스터의 컨테이너에서 사용할 수 있도록 자동으로 NVIDIA GPUs 노출할 수 있는 Kubernetes 디바이스 플러그인입니다. EKS 이를 통해 Kubernetes는 요청된 컨테이너에 대한 액세스를 할당하고 해당 컨테이너에 대한 액세스를 제공할 수 있습니다. GPUs 와 함께 인스턴스 유형을 사용할 때 필요합니다. GPU

  • neuron-device-plugin— 자동으로 노출할 수 있는 Kubernetes 디바이스 플러그인입니다. AWS Amazon EKS 클러스터의 컨테이너에서 사용하기 위한 인퍼런시아 칩. 이를 통해 Kubernetes는 데이터에 액세스하고 활용할 수 있습니다. AWS 클러스터 노드의 인퍼런시아 칩. Neuron 인스턴스 유형을 사용할 때 필요합니다.

  • aws-efa-k8s-device-plugin— 다음을 사용할 수 있는 Kubernetes 디바이스 플러그인입니다. AWS Amazon EKS 클러스터의 엘라스틱 패브릭 어댑터 (EFA). EFA클러스터 내 인스턴스 간에 지연 시간이 짧고 처리량이 높은 통신을 제공하는 네트워크 디바이스입니다. EFA지원되는 인스턴스 유형을 사용할 때 필요합니다.

제공된 헬름 차트를 사용한 설치 절차에 대한 자세한 내용은 SageMaker HyperPod CLI리포지토리의 README 파일을 참조하십시오.