SMDDP使用 SageMaker Python 启动分布式训练作业 SDK - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SMDDP使用 SageMaker Python 启动分布式训练作业 SDK

要使用改编后的脚本运行分布式训练作业调整训练脚本以使用SMDDP集体操作,请使用 SageMaker Python SDK 的框架或通用估计器,将准备好的训练脚本指定为入口点脚本和分布式训练配置。

本页将引导你了解如何以两种方式使用 SageMaker AI Python SDK

  • 如果您想在 SageMaker AI 中快速采用分布式训练作业,请配置 A SageMaker I PyTorchTensorFlow框架估算器类。框架估算器会获取您的训练脚本,并根据为参数指定的值,自动匹配预先构建URI的 PyTorch 或 Dee TensorFlow p Learning Containers (DLC) 的正确图像。framework_version

  • 如果您想扩展其中一个预建容器或构建一个自定义容器来创建自己的带有 SageMaker AI 的机器学习环境,请使用 A SageMaker I 通用Estimator类并指定托管在亚马逊弹性容器注册表 (Amazon) 中的自定义 Docker 容器的映像URI。ECR

您的训练数据集应存储在启动训练作业的 A mazon S3 或 Amazon FSx for Lustre AWS 区域 中。如果您使用 Jupyter 笔记本,则应在同一个 SageMaker 笔记本实例或 SageMaker Studio Classic 应用程序中运行。 AWS 区域有关存储训练数据的更多信息,请参阅 SageMaker Python SDK 数据输入文档。

提示

我们建议您使用 Amazon f FSx or Lustre 而不是 Amazon S3 来提高训练绩效。与 Amazon S3 相比,Amazon FSx 具有更高的吞吐量和更低的延迟。

提示

要在EFA已启用的实例类型上正确运行分布式训练,您应通过将您的VPC安全组设置为允许所有进出安全组本身的入站和出站流量来启用实例之间的流量。要了解如何设置安全组规则,请参阅 Amazon EC2 用户指南中的步骤 1:准备EFA已启用安全组

选择以下主题之一,了解如何运行训练脚本的分布式训练作业。启动训练作业后,您可以使用Amazon SageMaker 调试器或 Amazon 监控系统利用率和模型性能 CloudWatch。

在您按照以下主题中的说明来详细了解技术细节时,我们还建议您尝试通过Amazon SageMaker AI 数据并行库示例开始试用。