本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Helm 在 Amazon EKS 叢集上安裝套件
在建立 SageMaker HyperPod 叢集並將其附加至 Amazon EKS 叢集之前,您應該使用 Kubernetes 套件管理員 Helm
SageMaker HyperPod 服務團隊提供了 Helm Chart 軟件包,該軟件包包括設備/EFA插件,Kueue,Kubeflow 培訓操
重要
此掌舵安裝步驟是必需的步驟。若未使用提供的 Helm 圖表設定 Amazon EKS 叢集,可能會導致 SageMaker HyperPod 叢集無法正常運作,或建立程序完全失敗。aws-hyperpod
命名空間名稱無法修改。
-
在本地計算機上安裝頭盔
。 -
下載 SageMaker HyperPod 位於SageMaker HyperPod CLI存儲庫
helm_chart/HyperPodHelmChart
中提供的頭盔圖表。 git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
更新掌舵圖表的相依性、預覽將對 Kubernetes 叢集進行的變更,然後安裝「頭盔」圖表。
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
總之,Helm 安裝會為您的 Amazon EKS 叢集設定各種元件,包括任務排程和佇列 (Kueue)、儲存管理、MLflow整合和 Kubeflow。此外,圖表還會安裝下列元件,以與 SageMaker HyperPod 叢集復原功能 (這是必要元件) 整合。
-
He@@ alth 監視代理程式 — 這會安裝由提供的健康監視代理程式。 SageMaker HyperPod如果您想要監視 HyperPod 叢集,這是必要的。Health 監控代理程式以 Docker 映像檔的形式提供,如下所示。在頭盔圖表中提供的值 .yaml 中,圖像被預設。代理程式支援GPU型執行個體和 T rainium-accelerator-based 執行個體 (
trn1
trn1n
、、inf2
)。它被安裝到aws-hyperpod
命名空間。590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
深度健康狀態檢查 — 這會設定 SageMaker HyperPod 深層健康狀態檢查服務帳戶
ClusterRole
,ClusterRoleBinding
以及aws-hyperpod
命名空間。 -
Kubeflow 運算MPI子 — 操作員是 Kubernetes 運算MPI子
,可使用 Kubernetes 叢集上的訊息傳遞介面 () 來簡化執行分散式 Machine Learning (MLHPC) 和高效能運算 () 工作負載的程序。MPI它安裝MPI運營商 V0.5。它被安裝到 mpi-operator
命名空間。 -
nvidia-device-plugin
— 這是 Kubernetes 裝置外掛程式,可讓您自動公開NVIDIAGPUs供 Amazon 叢集中的容器使用。EKS它可讓 Kubernetes 配置並提供該容器要求GPUs的存取權。搭配使用執行個體類型時是必需的GPU。 -
neuron-device-plugin
— 這是一個 Kubernetes 設備插件,可讓您自動暴露 AWS 推論芯片,供 Amazon EKS 集群中的容器消費。它允許 Kubernetes 訪問和使用 AWS 群集節點上的推論芯片。使用「神經元」實體類型時需要此選項。 -
aws-efa-k8s-device-plugin
— 這是一個 Kubernetes 設備插件,可以使用 AWS Amazon EKS 集群上的彈性織物適配器(EFA)。EFA是一種網路裝置,可在叢集中的執行個體之間提供低延遲和高輸送量通訊。使用EFA支援的執行個體類型時必須使用。
如需有關使用提供的 Helm 圖表之安裝程序的詳細資訊,請參閱 SageMaker HyperPod CLI存放庫中的README檔案