FP16 使用模型并行度进行训练

PDF

RSS

聚焦模式

FP16 使用模型并行度进行训练 - 亚马逊 SageMaker AI

要进行 FP16 训练，请对训练脚本和估算器进行以下修改。

注意

此功能可在 SageMaker 模型并行度库 v1.10.0 及更高版本 PyTorch 中使用。

调整您的 PyTorch 训练脚本

使用 smdistributed.modelparallel.torch.model_creation() 上下文管理器包装您的模型。


# fp16_training_script.py

import torch
import smdistributed.modelparallel.torch as smp

with smp.model_creation(
    dtype=torch.float16 if args.fp16 else torch.get_default_dtype()
):
    model = ...

提示

如果您使用的是张量并行性，请将 tensor_parallelism=smp.tp_size() > 1 添加到 smp.model_creation 上下文管理器中。添加此行还有助于自动检测是否已激活张量并行性。


with smp.model_creation(
    ... ,
    tensor_parallelism=smp.tp_size() > 1
):
    model = ...

当您使用 smdistributed.modelparallel.torch.DistributedOptimizer 包装优化器时，请设置 static_loss_scaling 或 dynamic_loss_scaling 参数。默认情况下，static_loss_scaling 设置为 1.0，dynamic_loss_scaling 设置为 False。如果您设置 dynamic_loss_scale=True，则可以通过 dynamic_loss_args 参数将动态损失缩放选项作为字典输入。在大多数情况下，我们建议您使用带有默认选项的动态损失缩放。有关优化器包装器函数的更多信息、选项和示例，请参阅 smdistributed.modelparallel.torch。 DistributedOptimizerAPI。

以下代码是使用动态损失缩放来包装Adadelta优化器对象以进行 FP16 训练的示例。
```
optimizer = torch.optim.Adadelta(...)
optimizer = smp.DistributedOptimizer(
    optimizer,
    static_loss_scale=None,
    dynamic_loss_scale=True,
    dynamic_loss_args={
        "scale_window": 1000,
        "min_scale": 1,
        "delayed_shift": 2
    }
)
```

配置 SageMaker PyTorch 估算器

在创建 SageMaker PyTorch 估计器对象时，将 FP16 参数 ("fp16") 添加到分布配置中以实现模型并行性。有关模型并行性配置参数的完整列表，请参阅 smdistributed 的参数。


from sagemaker.pytorch import PyTorch

smp_options = {
    "enabled": True,
    "parameters":  {
        "microbatches":  4,
        "pipeline_parallel_degree":  2,
        "tensor_parallel_degree":  2,
        ...,

        "fp16": True
    }
}

fp16_estimator = PyTorch(
    entry_point="fp16_training_script.py", # Specify your train script
    ...,

    distribution={
        "smdistributed": {"modelparallel": smp_options},
        "mpi": {...}
    }
)

fp16_estimator.fit(...)

FP16 训练开始时，模型和优化器FP16_Optimizer分别由FP16_Module和包装，它们是 Apex 实用程序的修改smdistributed版本。 FP16_Module将模型转换为 FP16 dtype 并处理向前传入。 FP16

提示

您可以在 optimizer.step 之前通过调用 clip_master_grads 来应用梯度剪裁。


optimizer.clip_master_grads(max_norm)     # max_norm(float or int): max norm of the gradients

提示

使用torch.optim.lr_scheduler和 FP16 训练时，需要传递optimizer.optimizer给 LR 调度器而不是优化器。请参阅以下示例代码。


from torch.optim.lr_scheduler import StepLR

scheduler = StepLR(
    optimizer.optimizer if smp.state.cfg.fp16 else optimizer,
    step_size=1,
    gamma=args.gamma
)

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

激活分载

支持 FlashAttention

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项

FP16 使用模型并行度进行训练

注意

提示

提示

提示

Related resources

此页内容对您是否有帮助？

Related resources

下一主题：

上一主题：

需要帮助吗？