本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon 協調 SageMaker HyperPod 叢集 EKS
SageMaker HyperPod 這是一項 SageMaker受管服務,可在長時間執行且彈性的運算叢集上進行大規模訓練基礎模型,並與 Amazon EKS 整合以協調運算資源。 HyperPod 您可以使用具 HyperPod備備援功能的 Amazon EKS 叢集,大規模執行數週或數月的不間斷訓練任務,這些功能可檢查各種硬體故障並自動復原故障節點。
叢集管理員使用者的主要功能包括:
-
佈建彈性 HyperPod 叢集並將其附加至EKS控制平面
-
啟用動態容量管理,例如新增更多節點、更新軟體及刪除叢集
-
透過
kubectl
或SSM/直接啟用叢集執行個體的存取 SSH -
提供備援功能,包括基本運作狀態檢查、深度健康狀態檢查、健康監控代理程式,以及工作自動恢復的支援 PyTorch
-
與可觀察性工具集成,例如 Amazon CloudWatch 容器洞察,Prometheus 的 Amazon 託管服務和 Amazon 託管的 Grafana
對於資料科學家使用者,中的EKS支援 HyperPod 可啟用下列項目。
-
針對叢集上的訓練基礎模型執行容器化工作負載 HyperPod
-
在EKS叢集上執行推論,利用和之間 HyperPod 的整合 EKS
-
利用工作自動恢復功能進行 Kubeflow PyTorch
培訓 () PyTorchJob
中的 Amazon EKS 支援高階架構 HyperPod 涉及的EKS叢集 (控制平面) 和叢集 (工作 HyperPod 者節點) 之間的 1 對 1 映射VPC,如下圖所示。