支援的架構與 AWS 區域 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構與 AWS 區域

使用 SageMaker 模型平行處理程式庫之前,請檢查支援的架構和執行個體類型,並判斷 AWS 您的帳戶和 中是否有足夠的配額 AWS 區域。

注意

若要查看程式庫的最新更新和發行說明,請參閱 SageMaker Python SDK 文件中的 SageMaker 模型平行發行說明

支援的架構

SageMaker 模型平行處理程式庫支援下列深度學習架構,並可在 AWS 深度學習容器 (DLC) 中取得,也可以下載為二進位檔案。

SageMaker AI 和 SageMaker 模型平行處理程式庫支援的 PyTorch 版本

PyTorch 版本 SageMaker 模型平行處理程式庫版本 smdistributed-modelparallel 整合的 DLC 映像 URI 二進位檔案的網址**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
V1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
V1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注意

SageMaker 模型平行處理程式庫 v1.6.0 及更新版本為 PyTorch 提供了擴充功能。如需詳細資訊,請參閱SageMaker 模型平行處理程式庫的核心功能

** 二進位檔案的 URL 用於在自訂容器中安裝 SageMaker 模型平行處理程式庫。如需詳細資訊,請參閱使用 SageMaker 分散式模型平行程式庫建立您自己的 Docker 容器

SageMaker AI 和 SageMaker 模型平行處理程式庫支援的 TensorFlow 版本

TensorFlow 版本 SageMaker 模型平行處理程式庫版本 smdistributed-modelparallel 整合的 DLC 映像 URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

SageMaker AI 和 SageMaker 分散式資料平行程式庫支援的 Hugging Face Transformer 版本

適用於 Hugging Face 的 AWS 深度學習容器使用適用於 PyTorch 和 TensorFlow 的 SageMaker 訓練容器作為其基礎映像。若要查詢 Hugging Face 轉換器程式庫版本及配對的 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器先前的 Hugging Face 容器版本

AWS 區域

SageMaker 資料平行程式庫可在 SageMaker 的 AWS 區域 深度學習容器提供服務的所有 中使用。 AWS SageMaker 如需更多資訊,請參閱可用的深度學習容器映像

支援的執行個體類型

SageMaker 模型平行處理程式庫需要下列其中一種機器學習 (ML) 執行個體類型。

執行個體類型
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

如需執行個體類型的空間,請參閱 Amazon EC2 執行個體類型頁面中的加速運算區段。如需執行個體定價的資訊,請參閱 Amazon SageMaker AI 定價

如果您遇到類似以下的錯誤訊息,請遵循請求提高 SageMaker AI 資源的服務配額中的指示。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.