了解 SageMaker 模型并行度库 v2 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

了解 SageMaker 模型并行度库 v2

注意

自 2023 年 12 月 19 日发布 SageMaker 模型 parallelism (SMP) 库 v2.0.0 以来,该文档针对库 v2 进行了更新。SMP有关该SMP库的先前版本,请参见(已存档) SageMaker 模型并行度库 v1.x

Amazon SageMaker 模型并行度库是一种在 SageMaker 加速计算实例上实现高性能和优化大规模训练的功能。 SageMaker SageMaker 模型并行度库 v2 的核心功能其中包括用于加速和简化大型模型训练的技术和优化,例如混合分片数据并行性、张量并行性、激活检查点和激活卸载。您可以使用该SMP库来加速具有数千亿个参数的大型语言模型 (LLMs)、大型视觉模型 (LVMs) 和基础模型 (FMs) 的训练和微调。

SageMaker 模型并行度库 v2 (SMPv2) 将库APIs和方法与开源的 “ PyTorch 完全分片数据并行性” (FSDP) 保持一致,这使您只需最少的代码更改即可获得性能优化的好处。SMP使用 SMP v2,您可以将训练脚本引入,从而提高训练 state-of-the-art大型模型 SageMaker 的计算性能。 PyTorch FSDP SageMaker

您可以将 SMP v2 用于Amazon SageMaker HyperPod集群上的常规SageMaker 训练作业和分布式训练工作负载。