使用 Python SageMaker SDK 使用 SMDDP 启动分布式训练作业

要使用改编后的脚本运行分布式训练作业调整训练脚本以使用 SMDDP 集体操作，请使用 SageMaker Python SDK 的框架或通用估算器，将准备好的训练脚本指定为入口点脚本并将分布式训练配置指定为分布式训练配置。

本页将引导你了解如何通过两种方式使用 SageMaker AI Python SDK。

如果您想在 SageMaker AI 中快速采用分布式训练作业，请配置 A SageMaker I PyTorch或TensorFlow框架估算器类。框架估算器会获取您的训练脚本，并根据为参数指定的值，自动匹配预构建 PyTorch 或 TensorFlow 深度学习容器 (DLC) 的正确图像 URI。framework_version
如果您想扩展其中一个预建容器或构建一个自定义容器来创建自己的带有 SageMaker AI 的机器学习环境，请使用 A SageMaker I 通用Estimator类并指定托管在亚马逊弹性容器注册表 (Amazon ECR) 中的自定义 Docker 容器的映像 URI。

您的训练数据集应存储在启动训练作业的 Amazon S3 或 Amazon FSx f or Lustre AWS 区域中。如果您使用 Jupyter 笔记本，则应在同一个 SageMaker 笔记本实例或 SageMaker Studio Classic 应用程序中运行。 AWS 区域有关存储训练数据的更多信息，请参阅 SageMaker Python SDK 数据输入文档。

提示

我们建议您使用适用于 Lustre 的 Amazon FSx 而不是 Amazon S3 以提高训练性能。与 Amazon S3 相比，Amazon FSx 具有更高的吞吐量和更低的延迟。

提示

要在 EFA-enabled 实例类型上正确运行分布式训练，您应该将 VPC 的安全组设置为允许所有进出安全组本身的入站和出站流量，从而启用实例之间的流量。要了解如何设置安全组规则，请参阅 Amazon EC2 用户指南中的步骤 1：准备 EFA-enabled 安全组。

选择以下主题之一，了解如何运行训练脚本的分布式训练作业。启动训练作业后，您可以使用Amazon SageMaker 调试器或 Amazon 监控系统利用率和模型性能 CloudWatch。

在您按照以下主题中的说明来详细了解技术细节时，我们还建议您尝试通过Amazon SageMaker AI 数据并行库示例开始试用。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

TensorFlow （已弃用）

使用 Python SageMaker 软件开发工具包中的 PyTorch 框架估算器