SageMaker 模型并行度库的发行说明 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker 模型并行度库的发行说明

要跟踪 SageMaker 模型 parallelism (SMP) 库的最新更新,请参阅以下发行说明。如果您对SMP图书馆还有其他疑问,请通过以下方式与SMP服务团队联系sm-model-parallel-feedback@amazon.com

SageMaker 模型并行度库 v2.5.0

日期:2024年8月28日

SMP库更新

新功能

  • 在 Mixtral 模型的 P5 实例上添加了对使用FP8数据格式进行混合精度训练的支持。

  • 增加了上下文并行性对以下模型配置的支持。

    • Llama-v2:7B 和 70B

    • Llama-v3:8B 和 70B

    • GPT-NeoX:20B

  • 增加了对异步保存检查点的支持。要了解更多信息,请参阅 使用检查点功能 SMP

    • 支持无需使用 Amazon EBS 或文件服务器即可将检查点直接保存到 S3。

错误修复

  • 解决了加载预训练模型检查点并利用张量并行度时,在 Llama 微调期间导致初始损失异常高的问题。

备注

  • 要以FP8混合精度使用 Mixtral 的激活检查点,您需要分别检查注意层和专家层。有关正确设置的示例,请参阅 Amazon Examples 存储库中的 SageMaker示例训练脚本

已知问题

  • MoE 配置 (torch.sagemaker.moe.moe_config.MoEConfig) 中的平衡负载平衡类型目前与激活检查点不兼容。

  • 通过上下文并行性,GPT-neoX 在预训练和微调中都显示性能下降。

  • 对于 P4 实例上的 GPT-neoX,直接将权重从延迟参数初始化的变换模型加载到 Hugging Face 变换器模型会导致第一步的损耗不匹配。

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch 框架容器。如果您在 Pyth SageMaker on 中使用 PyTorch 估算器类SDK并指定要使用 SMP v2 的分发配置,则 SageMaker 会自动获取 Docker 容器。SMP要使用此版本的 SMP v2,请将你的 SageMaker Python 升级SDK到 v2.224.0 或更高版本。

货币更新

容器详细信息

  • SMP适用于 PyTorch v2.3.1 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121

    有关支持区域的完整列表,请参阅 AWS 区域

  • 预安装的软件包

    • 该SMP库 v2.5.0

    • 该SMDDP库 v2.3.0

    • CUDNNv8.9.7.29

    • FlashAttention v2.5.8

    • TransformerEngine v1.8

    • 威震天 v0.7.0

    • Hugging Face 变形金刚 v4.40.1

    • Hugging Face 数据集库 v2.19.0

    • EFAv1.32.0

    • NCCLv2.21.5

SMP康达频道

以下 S3 存储桶是SMP服务团队托管的SMP库的公共 Conda 频道。如果要在高度可定制的计算资源(例如 SageMaker HyperPod 集群)的环境中安装 SMP v2 库,请使用此 Conda 频道正确安装该SMP库。

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 频道的更多信息,请参阅 Conda 文档中的频道

SageMaker 模型并行度库 v2.4.0

日期:2024年6月20日

SMP库更新

错误修复

  • 修复了在使用 Transformer 时未在向前传递标签时导致对数形状不正确的错误SMP。

货币更新

  • 增加了对 PyTorch v2.3.1 的支持。

  • 增加了对 Python v3.11 的支持。

  • 增加了对 Hugging Face Transformers 库 v4.40.1 的支持。

弃用

  • 已停止支持 Python v3.10。

  • v4.40.1 之前的 Hugging Face Transformers 库版本已停止支持。

其他改动

  • 包括一个补丁,用于切换在不同等级上保存已消除重复的张量。要了解更多信息,请参阅 PyTorch GitHub 存储库中的讨论话题

已知问题

  • 存在一个已知问题,即在使用张量并行度微调 Llama-3 70B 时,损失可能会激增,然后恢复到更高的损失值。

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch 框架容器。如果您在 Pyth SageMaker on 中使用 PyTorch 估算器类SDK并指定要使用 SMP v2 的分发配置,则 SageMaker 会自动获取 Docker 容器。SMP要使用此版本的 SMP v2,请将你的 SageMaker Python 升级SDK到 v2.224.0 或更高版本。

货币更新

  • 已将SMDDP库升级到 v2.3.0。

  • 已将NCCL库升级到 v2.21.5。

  • 已将EFA软件升级到 1.32.0 版。

弃用

容器详细信息

  • SMP适用于 PyTorch v2.3.1 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  • 预安装的软件包

    • 该SMP库 v2.4.0

    • 该SMDDP库 v2.3.0

    • CUDNNv8.9.7.29

    • FlashAttention v2.3.3

    • TransformerEngine v1.2.1

    • Hugging Face 变形金刚 v4.40.1

    • Hugging Face 数据集库 v2.19.0

    • EFAv1.32.0

    • NCCLv2.21.5

SMP康达频道

以下 S3 存储桶是SMP服务团队托管的SMP库的公共 Conda 频道。如果要在高度可定制的计算资源(例如 SageMaker HyperPod 集群)的环境中安装 SMP v2 库,请使用此 Conda 频道正确安装该SMP库。

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 频道的更多信息,请参阅 Conda 文档中的频道

SageMaker 模型并行度库 v2.3.1

日期:2024年5月9日

错误修复

  • ImportError修复了使用 moe_load_balancing=balanced in torch.sagemaker.moe.moe_config.MoEConfig 进行专家并行处理时出现的问题。

  • 修复了启用KeyErrorload_state_dict_from_rank0会引发torch.sagemaker.transform呼叫的微调问题。

  • 修复了加载大型专家混合 out-of-memory (MoEOOM) 模型(例如 Mixtral 8x22b)进行微调时出现的 () 错误。

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch 框架容器。此版本将上述错误修复整合到以下 SMP Docker 镜像中。

  • SMP适用于 PyTorch v2.2.0 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

SageMaker 模型并行度库 v2.3.0

日期:2024年4月11日

新功能

  • 添加了一项新的核心功能 “专家并行性”,以支持 “专家混合” 变压器模型。要了解更多信息,请参阅 专家平行性

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch框架容器。如果您在 Pyth SageMaker on 中使用 PyTorch 估算器类SDK并指定要使用 SMP v2 的分发配置,则 SageMaker 会自动获取 Docker 容器。SMP要使用此版本的 SMP v2,请将你的 SageMaker Python 升级SDK到 v2.214.4 或更高版本。

  • SMP适用于 PyTorch v2.2.0 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • 此 Docker 容器中预先安装的软件包

      • 该SMDDP库 v2.2.0

      • CUDNNv8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face 变形金刚 v4.37.1

      • Hugging Face 数据集库 v2.16.1

      • 威震天酷睿 0.5.0

      • EFAv1.30.0

      • NCCLv2.19.4

SageMaker 模型并行度库 v2.2.0

日期:2024年3月7日

新功能

  • 增加了对在集成了变形引擎的 P5 实例上FP8训练以下 Hugging Face 变形器模型的支持:

    • GPT-neoX

    • Llama 2

错误修复

  • 修复了在张量并行训练期间无法保证张量在AllGather集体调用之前连续的错误。

货币更新

  • 增加了对 PyTorch v2.2.0 的支持。

  • 已将SMDDP库升级到 v2.2.0。

  • 已将 FlashAttention 库升级到 v2.3.3。

  • 已将NCCL库升级到 v2.19.4。

弃用

  • v1.2.0 之前的变形金刚引擎版本已停止支持。

已知问题

  • 该SMP激活分载功能目前不起作用。改用本机 PyTorch 激活卸载。

其他改动

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch框架容器。如果您在 Pyth SageMaker on 中使用 PyTorch 估算器类SDK并指定要使用 SMP v2 的分发配置,则 SageMaker 会自动获取 Docker 容器。SMP要使用此版本的 SMP v2,请将你的 SageMaker Python 升级SDK到 v2.212.0 或更高版本。

  • SMP适用于 PyTorch v2.2.0 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • 适用于 p4d、p4de 和 P5 实例

    • 此 Docker 容器中预先安装的软件包

      • 该SMDDP库 v2.2.0

      • CUDNNv8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face 变形金刚 v4.37.1

      • Hugging Face 数据集库 v2.16.1

      • EFAv1.30.0

      • NCCLv2.19.4

SageMaker 模型并行度库 v2.1.0

日期:2024年2月6日

货币更新

  • 增加了对 PyTorch v2.1.2 的支持。

弃用

  • 已停止支持 Hugging Face Transformers v4.31.0。

已知问题

  • 发现一个问题,即使用attn_implementation=flash_attention_2和对 Hugging Face Llama 2 模型进行微调FSDP会导致模型出现分歧。有关参考,请参阅 Hugging Face Transformers 存储库中的问题单 GitHub 。为避免分歧问题,请使用attn_implementation=sdpa。或者,通过设置使用SMP变压器模型实现use_smp_implementation=True

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch框架容器。如果您在 Pyth SageMaker on 中使用 PyTorch 估算器类SDK并指定要使用 SMP v2 的分发配置,则 SageMaker 会自动获取 Docker 容器。SMP要使用此版本的 SMP v2,请将你的 SageMaker Python 升级SDK到 v2.207.0 或更高版本。

  • SMP适用于 PyTorch v2.1.2 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
    • 适用于 p4d、p4de 和 P5 实例

    • 此 Docker 容器中预先安装的软件包

      • 该SMDDP库 v2.1.0

      • CUDNNv8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face 变形金刚 v4.37.1

      • Hugging Face 数据集库 v2.16.1

      • EFAv1.30.0

SMP康达频道

以下 S3 存储桶是SMP服务团队托管的公共 Conda 频道。如果要在高度可定制的计算资源(例如 SageMaker HyperPod 集群)的环境中安装 SMP v2 库,请使用此 Conda 频道正确安装该SMP库。

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 频道的更多信息,请参阅 Conda 文档中的频道

SageMaker 模型并行度库 v2.0.0

日期:2023 年 12 月 19 日

新功能

发布了 SageMaker 模型并行度 (SMP) 库 v2.0.0,其中包含以下新产品。

重大变化

  • SMPv2 全面修改了并提供了APIs软件包。torch.sagemaker大多数情况下,您只需要使用torch.sagemaker.init()模块进行初始化并传递模型并行配置参数即可。使用这个新软件包,您可以显著简化训练脚本中的代码修改。要了解有关调整训练脚本以使用 SMP v2 的更多信息,请参阅使用 SageMaker 模型并行度库 v2

  • 如果你使用 SMP v1 来训练 Hugging Face Transformer 模型并想在 SMP v2 中重复使用这些模型,请参阅。从 SMP v1 升级到 SMP v2

  • 要进行 PyTorch FSDP训练,你应该使用 SMP v2。

已知问题

  • 激活检查点当前仅适用于以下包装策略。FSDP

    • auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)

  • 要使用激活分载,FSDP激活检查点类型必须为。REENTRANT

  • 在启用 tensor parallel 且分片数据并行度设置为的情况下运行时1,必须使用。backend = nccl在这种情况下,不支持smddp后端选项。

  • 即使不使用张量并行度,也需要将 Transformer E@@ ngin e PyTorch 与SMP库一起使用。

其他改动

弃用

  • 已停止支持 TensorFlow。

  • v2 中SMP不支持流水线并行性。

  • 不支持该 DeepSpeed 库,而是支持原生库 PyTorchFSDP。

SMPDocker 容器

SMP库团队分发 Docker 容器来取代 SageMaker PyTorch框架容器。如果您在 Pyth SageMaker on 中使用 PyTorch 估算器类SDK并指定要使用 SMP v2 的分发配置,则 SageMaker 会自动获取 Docker 容器。SMP要使用此版本的 SMP v2,请将你的 SageMaker Python 升级SDK到 v2.207.0 或更高版本。

  • SMP适用于 PyTorch v2.0.1 和 v12.1 的 Docker 容器 CUDA

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121