与针对基础架构进行了优化的 SMDDP 库的兼容性 AWS

聚焦模式

与针对基础架构进行了优化的 SMDDP 库的兼容性 AWS - 亚马逊 SageMaker AI

您可以将 SageMaker 模型并行度库 v2 (SMP v2) 与SageMaker 分布式数据并行度 (SMDDP) 库结合使用，后者提供针对基础架构进行了优化的集体通信操作。AllGather AWS 在分布式训练中，集体通信操作旨在同步多个 GPU 工作人员并在它们之间交换信息。AllGather 是通常用于分片数据并行的核心集体通信操作之一。要了解有关 SMDDP AllGather 操作的更多信息，请参阅SMDDP AllGather 集体操作优化此类集体通信操作将直接有助于加快 end-to-end训练速度，而不会对收敛产生副作用。

注意

SMDDP 库支持 P4 和 P4de 实例（另请参阅 SMDDP 库的支持的框架 AWS 区域、和实例类型）。

SMDDP 库 PyTorch 通过流程组层与原生集成。要使用 SMDDP 库，您只需在训练脚本中添加两行代码。它支持任何训练框架，例如 SageMaker 模型并行库、 PyTorch FSDP 和。 DeepSpeed

要激活 SMDDP 并使用其 AllGather 操作，您需要在训练脚本中添加两行代码，作为第 1 步：调整你的 PyTorch FSDP 训练脚本的一部分。请注意，您需要先使用 SMDDP 后 PyTorch 端初始化 Distributed，然后运行 SMP 初始化。


import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()

SageMaker 的@@ 框架容器 PyTorch （另支持的框架和 AWS 区域请参阅 SMP v2 和支持的框架 AWS 区域、和实例类型 SMDDP 库）预先打包了 SMP 二进制文件和 SMDDP 二进制文件。要了解有关 SMDDP 库的更多信息，请参阅使用 SageMaker AI 分布式数据并行库运行分布式训练。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

上下文并行性

混合精度训练

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项

与针对基础架构进行了优化的 SMDDP 库的兼容性 AWS

注意

此页内容对您是否有帮助？

下一主题：

上一主题：

需要帮助吗？