使用 Amazon 協調 SageMaker HyperPod 叢集 EKS - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon 協調 SageMaker HyperPod 叢集 EKS

SageMaker HyperPod 這是一項 SageMaker受管服務,可在長時間執行且彈性的運算叢集上進行大規模訓練基礎模型,並與 Amazon EKS 整合以協調運算資源。 HyperPod 您可以使用具 HyperPod備備援功能的 Amazon EKS 叢集,大規模執行數週或數月的不間斷訓練任務,這些功能可檢查各種硬體故障並自動復原故障節點。

叢集管理員使用者的主要功能包括:

對於資料科學家使用者,中的EKS支援 HyperPod 可啟用下列項目。

  • 針對叢集上的訓練基礎模型執行容器化工作負載 HyperPod

  • 在EKS叢集上執行推論,利用和之間 HyperPod 的整合 EKS

  • 利用工作自動恢復功能進行 Kubeflow PyTorch 培訓 () PyTorchJob

中的 Amazon EKS 支援高階架構 HyperPod 涉及的EKS叢集 (控制平面) 和叢集 (工作 HyperPod 者節點) 之間的 1 對 1 映射VPC,如下圖所示。

EKS and HyperPod VPC architecture with control plane, 叢集 nodes, and AWS 服務.