(已存档)SageMaker 模型并行性库 v1.x
重要
自 2023 年 12 月 19 日起,SageMaker 模型并行性(SMP)库 v2 已发布。为了支持 SMP 库 v2,未来版本将不再支持 SMP v1 功能。以下部分和主题已存档,专门用于使用 SMP 库 v1。有关使用 SMP 库 v2 的信息,请参阅 SageMaker 模型并行性库 v2。
使用 Amazon SageMaker 的模型并行库来训练由于 GPU 内存限制而难以训练的大型深度学习 (DL) 模型。该库会自动将在多个 GPU 和实例之间高效地拆分模型。使用该库,您可以高效地训练具有数十亿或万亿参数的大型 DL 模型,从而更快地获得目标预测准确性。
使用该库后,您只需最少的代码更改,即可将自己的 TensorFlow 和 PyTorch 模型自动分区到多个 GPU 和多个节点上。您可以通过 SageMaker Python SDK 访问库的 API。
使用以下部分了解有关模型并行性和 SageMaker 模型并行库的更多信息。此库的 API 文档位于《SageMaker Python SDK v2.199.0 文档》的分布式训练 API