Amazon SageMaker HyperPod - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod

SageMaker HyperPod 可協助您佈建彈性叢集,以執行機器學習 (ML) 工作負載和開發 state-of-the-art大型語言模型 (LLMs)、擴散模型和基礎模型 () 等模型FMs。它FMs透過移除在建置和維護由數千個加速器支援的大規模運算叢集時涉及的未區分的繁重提升,例如 AWS Trainium、NVIDIAA100 和 H100 圖形處理器 (),加速 的開發GPUs。加速器故障時, SageMaker HyperPod 監控叢集執行個體的彈性功能會自動即時偵測並取代故障的硬體,讓您可以專注於執行 ML 工作負載。

若要開始使用,請檢查 使用 SageMaker HyperPod 的先決條件、設定 AWS Identity and Access Management 適用於 SageMaker HyperPod,並選擇下列其中一個 支援的協調程式選項 SageMaker HyperPod。

中的 Slurm 支援 SageMaker HyperPod

SageMaker HyperPod 與開放原始碼工作負載管理器 Slurm 整合,提供在彈性叢集上執行機器學習工作負載的支援。中的 SageMaker HyperPod Slurm 支援可透過 Slurm 叢集組態實現無縫叢集協調,可讓您在 SageMaker HyperPod 叢集上設定頭部、登入和工作者節點。此整合也有助於在叢集上執行 ML 工作負載的 Slurm 型任務排程,以及直接存取叢集節點以進行任務排程。透過 HyperPod的生命週期組態支援,您可以自訂叢集的運算環境,以符合您的特定需求。此外,透過利用 Amazon SageMaker AI 分散式訓練程式庫,您可以最佳化叢集的 AWS 運算和網路資源效能。如需進一步了解,請參閱 使用 Slurm 協調 SageMaker HyperPod 叢集

中的 Amazon EKS支援 SageMaker HyperPod

SageMaker HyperPod 也與 Amazon 整合EKS,以在長時間執行和彈性運算叢集上大規模訓練基礎模型。這可讓叢集管理員使用者佈建 HyperPod 叢集,並將其連接到EKS控制平面,啟用動態容量管理、直接存取叢集執行個體,以及恢復功能。對於資料科學家, 中的 Amazon EKS支援 HyperPod 允許執行容器化工作負載以進行訓練基礎模型、EKS叢集上的推論,以及利用任務自動恢復功能進行 Kubeflow PyTorch 訓練。架構涉及叢集 EKS(控制平面) 與 HyperPod 內的叢集 (工作者節點) 之間的 1 對 1 映射VPC,提供緊密整合的解決方案,以執行大規模 ML 工作負載。如需進一步了解,請參閱 使用 Amazon 協調 SageMaker HyperPod 叢集 EKS

AWS 區域 支援 SageMaker HyperPod

SageMaker HyperPod 可在下列中使用 AWS 區域。

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-northeast-1

  • sa-east-1