在 Amazon 協調的 SageMaker HyperPod 叢集上執行任務 EKS - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon 協調的 SageMaker HyperPod 叢集上執行任務 EKS

下列主題提供在透過 Amazon EKS 協調的佈建 SageMaker HyperPod 叢集上存取運算節點和執行 ML 工作負載的程序和範例。視您在叢集上設定環境的方式而定,有許多方法可以在 HyperPod 叢集上 HyperPod 執行機器學習工作負載。

提示

如需有關如何設定和使用透過 Amazon 協調的 SageMaker HyperPod 叢集的實作經驗和指導EKS,我們建議您在 SageMaker HyperPod研討會中參加此 Amazon Support 服EKS務

資料科學家使用者可以使用EKS叢集設為叢集的協調器來訓練基礎模型。 SageMaker HyperPod 科學家利用SageMaker HyperPod CLI和原生kubectl命令來尋找可用的 SageMaker HyperPod 叢集、提交訓練任務 (Pod),以及管理其工作負載。 SageMaker HyperPod CLI可使用訓練工作結構描述檔案啟用工作提交,並提供工作清單、說明、取消和執行的功能。科學家可以使用 Kubeflow 訓練操作員 Kueue(K8s 工具進行作業排隊)和SageMaker管理MLflow來管理機器學習實驗和訓練運行。