在 Amazon 協調的 SageMaker HyperPod 叢集上執行任務 EKS - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon 協調的 SageMaker HyperPod 叢集上執行任務 EKS

下列主題提供存取運算節點,以及在與 Amazon 協調的佈建 SageMaker HyperPod 叢集上執行 ML 工作負載的程序和範例EKS。根據您在 HyperPod 叢集上設定環境的方式,有許多方式可在 HyperPod 叢集上執行 ML 工作負載。

提示

如需如何設定和使用與 Amazon 協調的 SageMaker HyperPod 叢集的實作體驗和指引EKS,建議您在研討會中使用此 Amazon EKS Support SageMaker HyperPod

資料科學家使用者可以使用EKS叢集集作為 SageMaker HyperPod 叢集的協調器來訓練基礎模型。科學家利用 SageMaker HyperPod CLI和原生kubectl命令來尋找可用的 SageMaker HyperPod 叢集、提交訓練任務 (Pod),以及管理其工作負載。使用訓練任務結構描述檔案 SageMaker HyperPod CLI啟用任務提交,並提供任務清單、描述、取消和執行的功能。科學家可以使用 Kubeflow Training Operator Kue (任務佇列的 K8s 工具) 和 SageMaker受管 MLflow 來管理 ML 實驗和訓練執行。