使用思盧姆協調 SageMaker HyperPod 叢集 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用思盧姆協調 SageMaker HyperPod 叢集

中的 Slurm 支援可 SageMaker HyperPod 協助您佈建彈性叢集,以執行機器學習 (ML) 工作負載,以及開發大 state-of-the-art 型語言模型 (LLMs)、擴散模型和基礎模型 () 等模型。FMs它通過消除涉及構建和維護FMs由數千個加速器提供支持的大規模計算集群的無差異繁重工作來加速開發,例如 AWS 梯形和 NVIDIA A100 和 H100 圖形處理單元()。GPUs當加速器故障時, SageMaker HyperPod 監控叢集執行個體的恢復功能會即時自動偵測並更換故障硬體,讓您可以專注於執行 ML 工作負載。此外,透過中的生命週期組態支援 SageMaker HyperPod,您可以自訂最符合您需求的運算環境,並使用 Amazon SageMaker 分散式訓練程式庫進行設定,以達到最佳效能 AWS.

作業叢集

您可以透過主控台使用者介面 (UI) 以圖形方式建立、設定和維護 SageMaker HyperPod 叢集,並以程式設計方式透過 AWS 指令行介面 (CLI) 或 AWS SDK for Python (Boto3)。 使用 AmazonVPC,您可以保護叢集網路的安全,也可以利用叢集中的VPC資源 (例如 Amazon FSx for Lustre) 來設定叢集,以提供最快的輸送量。您也可以為叢集執行個體群組指定不同的IAM角色,並限制叢集資源和使用者可以操作的動作。如需進一步了解,請參閱 SageMaker HyperPod 操作

設定您的 ML 環境

SageMaker HyperPod 執行SageMaker HyperPod DLAMI,在 HyperPod 叢集上設定 ML 環境。您可以透DLAMI過提供生命週期指令碼來支援您的使用案例來配置的其他自訂。若要進一步瞭解如何設定生命週期指令碼,請參閱入門教學課程 SageMaker HyperPod使用生命週期指令碼自訂 SageMaker HyperPod叢集

排程工作

成功建立 HyperPod 叢集後,叢集使用者可以登入叢集節點 (例如頭節點或控制器節點、登入節點和 Worker 節點),並排定執行機器學習工作負載的工作。如需進一步了解,請參閱 SageMaker HyperPod 叢集上的任務

針對硬體故障的彈性

SageMaker HyperPod 在叢集節點上執行健康狀態檢查,並提供工作負載自動恢復功能。使用的叢集恢復功能 HyperPod,您可以在具有超過 16 個節點的叢集中的運作狀態良好的節點取代故障節點後,從上次儲存的檢查點恢復工作負載。如需進一步了解,請參閱 SageMaker HyperPod 叢集彈性

記錄和管理叢集

您可以在 Amazon 找到 SageMaker HyperPod 資源使用率指標和生命週期日誌 CloudWatch,並透過標記 SageMaker HyperPod 資源來管理資源。每次CreateClusterAPI運行都會創建一個獨特的日誌流,以<cluster-name>-<timestamp>格式命名。在記錄資料流中,您可以檢查主機名稱、失敗生命週期指令碼的名稱,以及失敗指令碼 (例如stdout和) 的輸出stderr。如需詳細資訊,請參閱SageMaker HyperPod 叢集管理

與 SageMaker 工具相容

使用 SageMaker HyperPod,您可以配置叢集 AWS 由提供的最佳化集體通訊程式庫 SageMaker,例如SageMaker分散式資料平行度 (SMDDP) 程式庫。該SMDDP庫實現了優化的AllGather操作 AWS 運算和網路基礎架構,適用於採用 NVIDIA A GPUs 100 技術支援的最高效能 SageMaker 機器學習執行個體。如需進一步了解,請參閱使用 Slurm on 執行分散式訓練工作負載 HyperPod