支持的框架和 AWS 区域 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架和 AWS 区域

在使用 SageMaker 模型并行度库之前,请检查支持的框架和实例类型,并确定您的 AWS 账户和中是否有足够的配额。 AWS 区域

注意

要查看该库的最新更新和发行说明,请参阅 SageMaker Python SDK 文档中的SageMaker 模型并行发行说明

支持的框架

SageMaker 模型并行度库支持以下深度学习框架,可在 Deep Learning Containers (DLC) 中 AWS 使用,也可以作为二进制文件下载。

PyTorch 支持的版本 SageMaker 和 SageMaker 模型并行度库

PyTorch 版本 SageMaker 模型并行度库版本 smdistributed-modelparallel集成DLC映像 URI URL二进制文件中的**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注意

SageMaker 模型并行度库 v1.6.0 及更高版本为提供了扩展功能。 PyTorch有关更多信息,请参阅 SageMaker 模型并行度库的核心功能

** 二进制文件用于在自定义容器中安装 SageMaker 模型并行度库。URLs有关更多信息,请参阅 使用 SageMaker 分布式模型并行库创建自己的 Docker 容器

TensorFlow 支持的版本 SageMaker 和 SageMaker 模型并行度库

TensorFlow 版本 SageMaker 模型并行度库版本 smdistributed-modelparallel集成DLC映像 URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

支持的 Hugging Face Transfor SageMaker mers 版本和 SageMaker分布式数据并行库

适用于 Hu AWS gging Face 的 Deep Learning Contain PyTorch er TensorFlow s 使用 SageMaker 训练容器作为基础图像。要查找 Hugging Face Transformers 库版本以及 PyTorch 配对版本 TensorFlow 和版本,请查看最新的 Hugging Face 容器和之前的 Hu ggin g Fac e 容器版本。

AWS 区域

SageMaker 数据并行库可在所有使用 Dee AWS p Learning Contain er SageMaker s AWS 区域 的地方使用。有关更多信息,请参阅可用的深度学习容器映像

支持的实例类型

SageMaker 模型并行度库需要以下 ML 实例类型之一。

实例类型
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker 定价

如果您遇到类似以下内容的错误消息,请按照请求增加 SageMaker 资源服务配额中的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.