

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用模型并行度运行 SageMaker 分布式训练 Job
<a name="model-parallel-use-api"></a>

学习如何使用带有模型并行度库的 Pyth SageMaker on SDK 运行自己的训练脚本的 SageMaker 模型并行训练作业。

运行 SageMaker 训练作业有三种用例场景。

1. 您可以将预先构建的 AWS 深度学习容器之一用于 TensorFlow 和。 PyTorch如果这使您首次使用模型并行库，则建议使用此选项。要查找有关如何运行 SageMaker 模型并行训练作业的教程，请参阅[使用 Amazon A SageMaker I 的模型并行度库进行PyTorch 训练的](https://github.com/aws/amazon-sagemaker-examples/tree/main/training/distributed_training/pytorch/model_parallel)示例笔记本。

1. 您可以扩展预先构建的容器，以处理预构建的 SageMaker Docker 镜像不支持的算法或模型的任何其他功能要求。要查找如何扩展预构建容器的示例，请参阅[扩展预构建容器](prebuilt-containers-extend.md)。

1. 您可以使用[SageMaker 训练工具包](https://github.com/aws/sagemaker-training-toolkit)调整自己的 Docker 容器以使用 SageMaker AI。有关示例，请参阅[调整您自己的训练容器](https://docs.aws.amazon.com/sagemaker/latest/dg/adapt-training-container.html)。

对于前述列表中的选项 2 和 3，请参阅[扩展包含分布式模型并行库的预构建 SageMaker的 Docker 容器](model-parallel-sm-sdk.md#model-parallel-customize-container)，以了解如何在扩展或自定义的 Docker 容器中安装模型并行库。

在所有情况下，您都可以启动训练作业，配置 SageMaker `TensorFlow``PyTorch`或估算器以激活库。要了解更多信息，请参阅以下主题。

**Topics**
+ [步骤 1：使用 SageMaker分布式模型并行库修改自己的训练脚本](model-parallel-customize-training-script.md)
+ [第 2 步：使用 SageMaker Python 软件开发工具包启动训练 Job](model-parallel-sm-sdk.md)