本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
要跟踪 SageMaker AI 分布式数据并行度 (SMDDP) 库的最新更新,请参阅以下发行说明。
A SageMaker I 分布式数据并行库 v2.5.0
日期:2024 年 10 月 17 日
新特征
-
在 CUDA v12.1 中添加了 PyTorch 对 v2.4.1 的支持。
集成到由 SageMaker AI 模型并行度 (SMP) 库分发的 Docker 容器中
该版本的 SMDDP 库已迁移至 SageMaker 模型并行度库 v2.6.0。
658645717510.dkr.ecr.<us-west-2>
.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121
有关提供 SMP Docker 映像的区域,请参阅 AWS 区域。
本版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
A SageMaker I 分布式数据并行库 v2.3.0
日期:2024 年 6 月 11 日
新特征
-
在 CUDA PyTorch v12.1 和 Python v3.11 中增加了对 v2.3.0 的支持。
-
增加了对 PyTorch Lightning v2.2.5 的支持。它已集成到 PyTorch v2.3. SageMaker 0 的 AI 框架容器中。
-
在导入过程中添加了实例类型验证,以防止在不支持的实例类型上加载 SMDDP 库。有关与 SMDDP 库兼容的实例类型列表,请参阅 支持的框架 AWS 区域、和实例类型。
集成到 SageMaker AI 框架容器中
此版本的 SMDDP 库已迁移到以下 SageMaker AI 框架
-
PyTorch v2.3.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
有关 SMDDP 库和与预构建容器版本的完整列表,请参阅 支持的框架 AWS 区域、和实例类型。
本版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
其他更改
-
SMDDP 库 v2.2.0 已集成到 v2.2.0 SageMaker 的人工智能框架容器中。 PyTorch
A SageMaker I 分布式数据并行库 v2.2.0
日期:2024 年 3 月 4 日
新特征
-
在 CUDA v12.1 中添加了 PyTorch 对 v2.2.0 的支持。
集成到由 SageMaker AI 模型并行度 (SMP) 库分发的 Docker 容器中
该版本的 SMDDP 库已迁移至 SageMaker 模型并行度库 v2.2.0。
658645717510.dkr.ecr.<region>
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
有关提供 SMP Docker 映像的区域,请参阅 AWS 区域。
本版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
A SageMaker I 分布式数据并行库 v2.1.0
日期:2024 年 3 月 1 日
新特征
-
在 CUDA v12.1 中添加了 PyTorch 对 v2.1.0 的支持。
错误修复
-
修正了 SMDDP v2.0.1 中的 CPU 内存泄漏问题。
集成到 SageMaker AI 框架容器中
此版本的 SMDDP 库通过了基准测试,并已迁移到以下 SageMaker AI 框架
-
PyTorch v2.1.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
集成到由 SageMaker AI 模型并行度 (SMP) 库分发的 Docker 容器中
该版本的 SMDDP 库已迁移至 SageMaker 模型并行度库 v2.1.0。
658645717510.dkr.ecr.<region>
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
有关提供 SMP Docker 映像的区域,请参阅 AWS 区域。
本版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
A SageMaker I 分布式数据并行库 v2.0.1
日期:2023 年 12 月 7 日
新特征
-
添加了针对 AWS 计算资源和网络基础设施进行了优化的全新 SMDDP
AllGather
集体操作实现。要了解更多信息,请参阅 SMDDP AllGather 集体操作。 -
SMDDP
AllGather
集体行动与 PyTorch FSDP 兼容,. DeepSpeed 要了解更多信息,请参阅 在训练脚本中使用 SMDDP 库 PyTorch 。 -
增加了对 PyTorch v2.0.1 的支持
已知问题
-
在 DDP 模式下使用 SMDDP
AllReduce
进行训练时,CPU 内存逐渐增加,导致 CPU 内存泄漏。
集成到 SageMaker AI 框架容器中
此版本的 SMDDP 库通过了基准测试,并已迁移到以下 SageMaker AI 框架
-
PyTorch v2.0.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
本版本的二进制文件
您可以使用以下 URL 下载或安装该库。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
其他更改
-
从本版本开始,本亚马逊 A SageMaker I 开发者指南中提供了有关 SMDDP 库的完整文档。为了支持亚马逊 SageMaker 人工智能开发者指南中包含的完整的 SMDDP v2 开发者指南,不再支持 AI P ython SDK 文档中有关 SMDDP v1.x 的SageMaker 额外参考
文档。如果你还需要 SMP v1.x 文档,请参阅 Pyth SageMaker on SDK v2.212.0 文档中的以下文档快照。