本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 可協助您佈建彈性叢集,以執行機器學習 (ML) 工作負載和開發state-of-the-art模型,例如大型語言模型 (LLMs)、擴散模型和基礎模型 (FMs)。它透過移除建置和維護由數千個加速器支援的大規模運算叢集,例如 AWS Trainium、NVIDIA A100 和 H100 圖形處理器 (GPUs),來加速 FMs 的開發。當加速器故障時,SageMaker HyperPod 的彈性功能會自動偵測並即時取代故障的硬體,讓您可以專注於執行 ML 工作負載。
若要開始使用,請檢查 使用 SageMaker HyperPod 的先決條件、設定 AWS Identity and Access Management for SageMaker HyperPod,並選擇 SageMaker HyperPod 支援的下列其中一個協調程式選項。
SageMaker HyperPod 中的 Slurm 支援
SageMaker HyperPod 透過與開放原始碼工作負載管理員 Slurm 整合,在彈性叢集上執行機器學習工作負載。SageMaker HyperPod 中的 Slurm 支援可透過 Slurm 叢集組態實現無縫叢集協調,可讓您在 SageMaker HyperPod 叢集上設定頭部、登入和工作者節點。此整合也有助於 Slurm 型任務排程,以便在叢集上執行 ML 工作負載,以及直接存取叢集節點以進行任務排程。透過 HyperPod 的生命週期組態支援,您可以自訂叢集的運算環境,以符合您的特定需求。此外,透過利用 Amazon SageMaker AI 分散式訓練程式庫,您可以最佳化叢集的 AWS 運算和網路資源效能。如需進一步了解,請參閱 使用 Slurm 協調 SageMaker HyperPod 叢集。
SageMaker HyperPod 中的 Amazon EKS 支援
SageMaker HyperPod 也與 Amazon EKS 整合,以在長時間執行和彈性運算叢集上大規模訓練基礎模型。這可讓叢集管理員使用者佈建 HyperPod 叢集,並將其連接至 EKS 控制平面,進而啟用動態容量管理、直接存取叢集執行個體和彈性功能。對於資料科學家,HyperPod 中的 Amazon EKS 支援允許執行容器化工作負載以進行訓練基礎模型、在 EKS 叢集上推論,以及利用任務自動恢復功能進行 Kubeflow PyTorch 訓練。架構涉及 EKS 叢集 (控制平面) 與 VPC 內的 HyperPod 叢集 (工作者節點) 之間的 1 對 1 映射,為執行大規模 ML 工作負載提供緊密整合的解決方案。如需進一步了解,請參閱 使用 Amazon EKS 協調 SageMaker HyperPod 叢集。
AWS 區域 SageMaker HyperPod 支援
SageMaker HyperPod 可在下列內容中使用 AWS 區域。
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1