本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 是一項 SageMaker AI 受管服務,可在長時間執行且具彈性的運算叢集上大規模訓練基礎模型,並與 Amazon EKS 整合以協調 HyperPod 運算資源。您可以使用具有 HyperPod 彈性功能的 Amazon EKS 叢集,大規模執行持續數週或數月的訓練任務,以檢查各種硬體故障並自動復原故障節點。
叢集管理員使用者的主要功能包括下列項目。
-
佈建彈性 HyperPod 叢集並將其連接至 EKS 控制平面
-
啟用動態容量管理,例如新增更多節點、更新軟體和刪除叢集
-
直接透過
kubectl
或 SSM/SSH 啟用對叢集執行個體的存取 -
提供彈性功能,包括基本運作狀態檢查、深度運作狀態檢查、運作狀態監控代理程式,以及支援 PyTorch 任務自動恢復
-
與 Amazon CloudWatch Container Insights、Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 等可觀測性工具整合
對於資料科學家使用者,HyperPod 中的 EKS 支援會啟用下列項目。
-
在 HyperPod 叢集上執行訓練基礎模型的容器化工作負載
-
在 EKS 叢集上執行推論,利用 HyperPod 和 EKS 之間的整合
-
利用任務自動恢復功能進行 Kubeflow PyTorch 訓練 (PyTorchJob)
注意
Amazon EKS 透過 Amazon EKS 控制平面,在 SageMaker HyperPod 上啟用使用者管理的任務和基礎設施協調。確保使用者透過 Kubernetes API Server 端點存取叢集,遵循最低權限原則,且 HyperPod 叢集的網路輸出已受到保護。
若要進一步了解如何保護對 Amazon EKS API Server 的存取,請參閱控制對叢集 API 伺服器端點的網路存取。
若要進一步了解如何在 HyperPod 上保護網路存取,請參閱 使用自訂 Amazon VPC 設定 SageMaker HyperPod 。
HyperPod 中 Amazon EKS 支援的高階架構涉及 EKS 叢集 (控制平面) 與 VPC 內的 HyperPod 叢集 (工作者節點) 之間的一對一映射,如下圖所示。
