在 Slurm 开启的情况下运行分布式训练工作负载 HyperPod

SageMaker HyperPod 专门用于训练大型语言模型 (LLMs) 和基础模型 (FMs) 的工作负载。这些工作负载通常需要使用多种并行处理技术，并针对机器学习基础架构和资源进行优化的操作。使用 SageMaker HyperPod，您可以使用以下 SageMaker 分布式训练框架：

SMDDP在 a 上使用 SageMaker HyperPod

该SMDDP库是一个集体通信库，可提高分布式数据并行训练的计算性能。该SMDDP库可与以下开源分布式训练框架配合使用：

该SMDDP库通过提供以下内容来解决关键集体通信操作的通信开销 SageMaker HyperPod。

该库AllGather针对以下内容进行了优化 AWS。 AllGather是分片数据并行训练中使用的一项关键操作，分片数据并行训练是流行库提供的一种节省内存的数据并行技术。其中包括 SageMaker 模型并行度 (SMP) 库、 DeepSpeed 零冗余优化器 (ZerO) 和 PyTorch 完全分片数据并行度 ()。FSDP
该库通过充分利用 AWS 网络基础设施和 SageMaker ML 实例拓扑来优化 node-to-node通信。

运行示例数据并行训练作业

浏览以下使用库实现数据并行技术的分布式训练示例。SMDDP

要设置在上使用SMDDP库的环境 SageMaker HyperPod

以下是在上使用该SMDDP库的培训环境要求 SageMaker HyperPod。

根据您希望如何运行分布式训练作业，有两种安装SMDDP库的选项：

库文档的 “支持的框架” 中列出了预先安装URLs的SMDDP库或SMDDP二进制文件中的 Docker 镜像。SMDDP

要了解如何使用一般运行数据并行训练作业SMDDP，请参阅使用分布式数据并行库进行 SageMaker分布式训练。

该SMP库还与NVIDIA威震天和 Transformer E PyTorch FSDP ngine 等开源框架兼容NVIDIA。

运行模型并行训练工作负载示例

SageMaker 服务团队提供样本训练作业，实现模型并行性，SMP库位于。awsome-distributed-training/3.test_cases/17.SM-modelparallelv2

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

在 Slurm 计算节点上运行 Docker 容器 HyperPod

HyperPod 集群资源监控