使用 Helm 在 Amazon EKS 叢集上安裝套件 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Helm 在 Amazon EKS 叢集上安裝套件

在建立 SageMaker HyperPod 叢集並將其附加至 Amazon EKS 叢集之前,您應該使用 Kubernetes 套件管理員 Helm 來安裝套件。Helm 是設定 Kubernetes 叢集安裝程序的開放原始碼工具。它可實現自動化和簡化相依性安裝,並簡化將 Amazon EKS 叢集準備為叢集的協調器 (控制平面) 所需的各種設定。 SageMaker HyperPod

SageMaker HyperPod 服務團隊提供了 Helm Chart 軟件包,該軟件包包括設備/EFA插件,Kueue,Kubeflow 培訓操作符以及相關的權限配置等關鍵依賴項。

重要

此掌舵安裝步驟是必需的步驟。若未使用提供的 Helm 圖表設定 Amazon EKS 叢集,可能會導致 SageMaker HyperPod 叢集無法正常運作,或建立程序完全失敗。aws-hyperpod命名空間名稱無法修改。

  1. 在本地計算機上安裝頭盔

  2. 下載 SageMaker HyperPod 位於SageMaker HyperPod CLI存儲庫helm_chart/HyperPodHelmChart中提供的頭盔圖表。

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. 更新掌舵圖表的相依性、預覽將對 Kubernetes 叢集進行的變更,然後安裝「頭盔」圖表。

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

總之,Helm 安裝會為您的 Amazon EKS 叢集設定各種元件,包括任務排程和佇列 (Kueue)、儲存管理、MLflow整合和 Kubeflow。此外,圖表還會安裝下列元件,以與 SageMaker HyperPod 叢集復原功能 (這是必要元件) 整合。

  • He@@ alth 監視代理程式 — 這會安裝由提供的健康監視代理程式。 SageMaker HyperPod如果您想要監視 HyperPod 叢集,這是必要的。Health 監控代理程式以 Docker 映像檔的形式提供,如下所示。在頭盔圖表中提供的值 .yaml 中,圖像被預設。代理程式支援GPU型執行個體和 T rainium-accelerator-based 執行個體 (trn1trn1n、、inf2)。它被安裝到aws-hyperpod命名空間。

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • 深度健康狀態檢查 — 這會設定 SageMaker HyperPod 深層健康狀態檢查服務帳戶ClusterRoleClusterRoleBinding以及aws-hyperpod命名空間。

  • Kubeflow 運算MPI子 — 操作員是 Kubernetes 運算MPI子,可使用 Kubernetes 叢集上的訊息傳遞介面 () 來簡化執行分散式 Machine Learning (MLHPC) 和高效能運算 () 工作負載的程序。MPI它安裝MPI運營商 V0.5。它被安裝到mpi-operator命名空間。

  • nvidia-device-plugin— 這是 Kubernetes 裝置外掛程式,可讓您自動公開NVIDIAGPUs供 Amazon 叢集中的容器使用。EKS它可讓 Kubernetes 配置並提供該容器要求GPUs的存取權。搭配使用執行個體類型時是必需的GPU。

  • neuron-device-plugin— 這是一個 Kubernetes 設備插件,可讓您自動暴露 AWS 推論芯片,供 Amazon EKS 集群中的容器消費。它允許 Kubernetes 訪問和使用 AWS 群集節點上的推論芯片。使用「神經元」實體類型時需要此選項。

  • aws-efa-k8s-device-plugin— 這是一個 Kubernetes 設備插件,可以使用 AWS Amazon EKS 集群上的彈性織物適配器(EFA)。EFA是一種網路裝置,可在叢集中的執行個體之間提供低延遲和高輸送量通訊。使用EFA支援的執行個體類型時必須使用。

如需有關使用提供的 Helm 圖表之安裝程序的詳細資訊,請參閱 SageMaker HyperPod CLI存放庫中的README檔案