支持的框架和 AWS 区域 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架和 AWS 区域

在使用 SageMaker 模型并行度库 v2 (SMPv2) 之前,请检查支持的框架和实例类型,并确定您的账户中是否有足够的配额和。 AWS AWS 区域

注意

要查看库的最新更新和版本说明,请参阅 SageMaker 模型并行度库的发行说明

支持的框架

SMPv2 支持以下深度学习框架,可通过 SMP Docker 容器和 C SMP onda 频道获得。当你在 Pyth SageMaker on 中使用框架估算器类SDK并指定要使用 SMP v2 的分发配置时, SageMaker AI 会自动获取 Docker 容器。SMP要使用 SMP v2,我们建议您在开发环境中始终保持 SageMaker Python SDK 的最新版本。

PyTorch SageMaker 模型并行度库支持的版本

PyTorch 版本 SageMaker 模型并行度库版本 SMPDocker 镜像 URI SMP注册镜像 URI
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 不适用
smdistributed-modelparallel==v2.6.0 不适用
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 不适用
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 不适用
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 不适用
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 不适用

SMP康达频道

以下 Amazon S3 存储桶是由SMP服务团队托管的公共 Conda 频道。如果要在 SageMaker HyperPod 集群等环境中安装 SMP v2 库,请使用此 Conda 频道正确安装该SMP库。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

有关 Conda 通道的更多信息,请参阅 Conda 文档中的通道

注意

要查找 v1.x 和预打包SMP库的先前版本DLCs,请参阅 v1 支持的框架 文档中的。SMP

将 SMP v2 与开源库配合使用

SMPv2 库可与其他 PyTorch基于开源库配合使用,例如 L PyTorch ightning、Hugging Face Transformers 和 Hugging Face Accelerate,SMP因为 v2 与兼容。 PyTorch FSDP APIs如果您对与其他第三方SMP图书馆一起使用库还有其他疑问,请通过以下方式与SMP服务团队联系sm-model-parallel-feedback@amazon.com

AWS 区域

SMPv2 在以下 AWS 区域版本中可用。如果你想使用 SMP Docker 镜像URIs或 C SMP onda 频道,请查看以下列表并选择与你的镜像 AWS 区域 相匹配的镜像,然后相应地更新镜像URI或频道URL。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

支持的实例类型

SMPv2 需要以下机器学习实例类型之一。

实例类型
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
提示

从 SMP v2.2.0 开始,支持 PyTorch v2.2.0 及更高版本,已上市。使用变形引擎FP8在 P5 实例上进行混合精度训练

有关 SageMaker 机器学习实例类型的一般规格,请参阅 Amazon EC2 实例类型页面加速计算部分。有关实例定价的信息,请参阅 Amazon A SageMaker I 定价

如果您遇到类似以下的错误消息,请按照《AWS 服务配额用户指南》请求提高配额的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.