本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的框架和 AWS 区域
在使用 SageMaker 模型并行度库 v2 (SMPv2) 之前,请检查支持的框架和实例类型,并确定您的账户中是否有足够的配额和。 AWS AWS 区域
注意
要查看库的最新更新和版本说明,请参阅 SageMaker 模型并行度库的发行说明。
支持的框架
SMPv2 支持以下深度学习框架,可通过 SMP Docker 容器和 C SMP onda 频道获得。当你在 Pyth SageMaker on 中使用框架估算器类SDK并指定要使用 SMP v2 的分发配置时, SageMaker AI 会自动获取 Docker 容器。SMP要使用 SMP v2,我们建议您在开发环境中始终保持 SageMaker Python SDK 的最新版本。
PyTorch SageMaker 模型并行度库支持的版本
PyTorch 版本 | SageMaker 模型并行度库版本 | SMPDocker 镜像 URI | SMP注册镜像 URI |
---|---|---|---|
v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
不适用 | ||
smdistributed-modelparallel==v2.6.0 |
不适用 | ||
v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
不适用 |
smdistributed-modelparallel==v2.4.0 |
|||
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
不适用 |
smdistributed-modelparallel==v2.2.0 |
|||
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
不适用 |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
不适用 |
SMP康达频道
以下 Amazon S3 存储桶是由SMP服务团队托管的公共 Conda 频道。如果要在 SageMaker HyperPod 集群等环境中安装 SMP v2 库,请使用此 Conda 频道正确安装该SMP库。
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
有关 Conda 通道的更多信息,请参阅 Conda 文档
注意
要查找 v1.x 和预打包SMP库的先前版本DLCs,请参阅 v1 支持的框架 文档中的。SMP
将 SMP v2 与开源库配合使用
SMPv2 库可与其他 PyTorch基于开源库配合使用,例如 L PyTorch ightning、Hugging Face Transformers 和 Hugging Face Accelerate,SMP因为 v2 与兼容。 PyTorch FSDP APIs如果您对与其他第三方SMP图书馆一起使用库还有其他疑问,请通过以下方式与SMP服务团队联系sm-model-parallel-feedback@amazon.com
。
AWS 区域
SMPv2 在以下 AWS 区域版本中可用。如果你想使用 SMP Docker 镜像URIs或 C SMP onda 频道,请查看以下列表并选择与你的镜像 AWS 区域 相匹配的镜像,然后相应地更新镜像URI或频道URL。
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
支持的实例类型
SMPv2 需要以下机器学习实例类型之一。
实例类型 |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
提示
从 SMP v2.2.0 开始,支持 PyTorch v2.2.0 及更高版本,已上市。使用变形引擎FP8在 P5 实例上进行混合精度训练
有关 SageMaker 机器学习实例类型的一般规格,请参阅 Amazon EC2 实例类型页面
如果您遇到类似以下的错误消息,请按照《AWS 服务配额用户指南》中请求提高配额的说明进行操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.