

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 SageMaker AI 分布式数据并行库运行分布式训练
<a name="data-parallel"></a>

 SageMaker AI 分布式数据并行度 (SMDDP) 库通过提供针对基础设施优化的集体通信操作的实现，扩展了深度学习模型的 SageMaker 训练能力，具有近线性的扩展效率。 AWS 

当在庞大的训练数据集上训练大型机器学习 (ML) 模型（例如大型语言模型（LLM）和扩散模型）时，ML 从业人员会使用加速器集群和分布式训练技术来缩短训练时间，或解决每个 GPU 内存无法容纳的模型的内存限制问题。ML 从业人员通常先在单个实例上使用多个加速器，然后随着工作负载需求的增加扩展到实例集群。随着集群规模的扩大，多个节点之间的通信开销也会增加，从而导致整体计算性能下降。

为了解决此类开销和内存问题，SMDDP 库提供了以下内容。
+ SMDDP 库优化了 AWS 网络基础设施和 Amazon A SageMaker I ML 实例拓扑的训练作业。
+ SMDDP 库通过实现针对基础架构进行了优`AllReduce`化的`AllGather`集体通信操作来改善节点之间的通信。 AWS 

要了解有关 SMDDP 库产品详细信息的更多信息，请继续 [SageMaker AI 分布式数据并行库简介](data-parallel-intro.md)。

有关使用 SageMaker AI 提供的模型并行策略进行训练的更多信息，另请参阅。[（已存档）SageMaker 模型并行性库 v1.x](model-parallel.md)

**Topics**
+ [SageMaker AI 分布式数据并行库简介](data-parallel-intro.md)
+ [支持的框架 AWS 区域、和实例类型](distributed-data-parallel-support.md)
+ [使用 SageMaker AI 分布式数据并行库进行分布式训练](data-parallel-modify-sdp.md)
+ [Amazon SageMaker AI 数据并行库示例](distributed-data-parallel-v2-examples.md)
+ [SageMaker AI 分布式数据并行库的配置提示](data-parallel-config.md)
+ [Amazon SageMaker AI 分布式数据并行库常见问题](data-parallel-faq.md)
+ [在 Amazon A SageMaker I 中进行分布式训练的疑难解答](distributed-troubleshooting-data-parallel.md)
+ [SageMaker AI 数据并行度库发行说明](data-parallel-release-notes.md)