使用 Slurm on 執行分散式訓練工作負載 HyperPod

SageMaker HyperPod 專門用於訓練大型語言模型（LLMs）和基礎模型（）的工作負載FMs。這些工作負載通常需要使用多種平行處理技術，以及 ML 基礎設施和資源的最佳化操作。使用 SageMaker HyperPod，您可以使用下列 SageMaker 分散式訓練架構：

在 SMDDP上使用 SageMaker HyperPod

SMDDP 程式庫是集體通訊程式庫，可改善分散式資料平行訓練的運算效能。SMDDP 程式庫適用於下列開放原始碼分散式訓練架構：

SMDDP 程式庫透過為提供下列項目來解決金鑰集體通訊操作的通訊額外負荷 SageMaker HyperPod。

程式庫提供針對 AllGather最佳化的 AWS。 AllGather 是碎片資料平行訓練中使用的金鑰操作，這是一種由常用程式庫提供的記憶體效率資料平行處理技術。其中包括 SageMaker 模型平行處理（SMP）程式庫、 DeepSpeed 零冗餘最佳化工具（ZeRO和 PyTorch 全陰影資料平行處理（FSDP）。
程式庫會充分利用 AWS 網路基礎設施和 SageMaker ML 執行個體拓撲來執行最佳化 node-to-node通訊。

執行範例資料平行訓練任務

探索下列使用 SMDDP 程式庫實作資料平行處理技術的分散式訓練範例。

若要設定在上使用SMDDP程式庫的環境 SageMaker HyperPod

以下是在上使用SMDDP程式庫的訓練環境需求 SageMaker HyperPod。

根據您想要執行分散式訓練任務的方式，有兩種安裝SMDDP程式庫的選項：

與SMDDP程式庫或預先安裝URLs到二進位檔案的 Docker SMDDP 映像會列在SMDDP程式庫文件中的支援架構。

若要了解如何使用 SMDDP 執行資料平行訓練任務，請參閱具有分散式資料平行處理程式庫的 SageMaker分散式訓練。

SMP 程式庫也與開放原始碼架構相容 PyTorch FSDP，例如、NVIDIAMegatron 和 NVIDIA Transformer Engine。

執行範例模型平行訓練工作負載

SageMaker 服務團隊提供範例訓練任務，透過的SMP程式庫實作模型平行處理awsome-distributed-training/3.test_cases/17.SM-modelparallelv2。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

在上的 Slurm 運算節點上執行 Docker 容器 HyperPod

HyperPod 叢集資源監控