支援的架構與 AWS 區域 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構與 AWS 區域

在使用 SageMaker 模型平行程式庫之前,請檢查支援的架構和執行個體類型,並判斷您的 AWS 帳戶和 AWS 區域.

注意

若要查看程式庫的最新更新和版本說明,請參閱 SageMaker Python SDK 文件中的SageMaker 模型平行發行說明

支援的架構

SageMaker 模型平行程式庫支援下列深度學習架構,並可在 De AWS ep Learning Containers (DLC) 中取得,或以二進位檔案形式下載。

PyTorch 支援的版本 SageMaker 和 SageMaker 模型平行程式庫

PyTorch 版本 SageMaker 模型平行程式庫版本 smdistributed-modelparallel整合DLC影像 URI URL的二進製文件 **
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -2.0.0/構建人造物/2023 年 4 月 14 日-中小分發 _ 模型並行-1.15.0-CP310-CP310-鏈路 _ 64.
V1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.13.1/構建人造物/
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.12.1/構建人造物/ 2022-12-08-21-34/SM分佈_模型並行模型-1.13.0-CP38-亞麻 _ x86_64.Whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.12.0/構建人造物/2022-12-16-58/SM分佈_模型並行模型-1.11.0-CP38-亞麻 _ x86_64.Whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.11.0/構建工件/2022-07-11-19-23/SM分佈_模型並行模型-1.10.0-CP38-鏈-x86_64.Whl
V1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注意

SageMaker 模型平行程式庫 v1.6.0 及更新版本提供的延伸功能。 PyTorch如需詳細資訊,請參閱 SageMaker 模型平行程式庫的核心功能

** 二進位檔案用於在自訂容器中安裝 SageMaker 模型平行程式庫。URLs如需詳細資訊,請參閱使用 SageMaker 分散式模型平行程式庫建立您自己的 Docker 容器

TensorFlow 支援的版本 SageMaker 和 SageMaker 模型平行程式庫

TensorFlow 版本 SageMaker 模型平行程式庫版本 smdistributed-modelparallel整合DLC影像 URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Hugging Face 變壓器版本支持 SageMaker 和分 SageMaker佈式數據 parallel 庫

Hugging Face 部的 AWS Deep Learning Containers 使用 SageMaker 訓練容器作為其基本圖像, PyTorch 並將其用 TensorFlow 作其基本圖像。要查找 Hugging Face 變形金剛庫版本以及配對 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器之前的 Hugging Face 容器版本。

AWS 區域

資 SageMaker 料 parallel 程式庫可在所有服務 AWS 區域 中的 AWS Deep Learning Contain ers 中使用。 SageMaker如需更多資訊,請參閱可用的深度學習容器映像

支援的執行個體類型

SageMaker 模型平行程度程式庫需要下列其中一種 ML 執行個體類型。

執行個體類型
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

如需執行個體類型的規格,請參閱 Amazon EC2 執行個體類型頁面中的「加速運算」一節。如需執行個體定價的相關資訊,請參閱 Amazon SageMaker 定價

如果您遇到類似下列內容的錯誤訊息,請遵循要求增加 SageMaker 資源的服務配額中的指示。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.