支援的架構 AWS 區域和執行個體類型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構 AWS 區域和執行個體類型

使用 SageMaker AI 分散式資料平行處理 (SMDDP) 程式庫之前,請檢查支援哪些 ML 架構和執行個體類型,以及 AWS 您的帳戶和 中是否有足夠的配額 AWS 區域。

支援的架構

下表顯示 SageMaker AI 和 SMDDP 支援的深度學習架構及其版本。SMDDP 程式庫可在 SageMaker AI Framework Containers 中取得,整合在 SageMaker 模型平行處理 (SMP) 程式庫 v2 分佈的 Docker 容器中,或下載為二進位檔案。

注意

若要檢查 SMDDP 程式庫的最新更新和版本備註,請參閱 SageMaker AI 資料平行處理程式庫版本備註

PyTorch

PyTorch 版本 SMDDP 程式庫版本 預先安裝 SMDDP 的 SageMaker AI Framework Container 映像 預先安裝 SMDDP 的 SMP Docker 映像 二進位檔案的網址**
v2.3.1 smdistributed-dataparallel==v2.5.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 目前無法使用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.0 版 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
V1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** 二進位檔案URLs 用於在自訂容器中安裝 SMDDP 程式庫。如需詳細資訊,請參閱使用 SageMaker AI 分散式資料平行程式庫建立您自己的 Docker 容器

注意

SMDDP 程式庫可在 SageMaker AI Framework ContainersSMP Docker 映像正在使用 AWS 區域 的 中使用。

注意

SMDDP 程式庫 1.4.0 版和更新版本可做為 PyTorch 分散式 (torch.distributed) 資料平行處理 (torch.parallel.DistributedDataParallel) 的後端。根據變更,下列 PyTorch 分散式套件的 smdistributed APIs 已棄用。

如果您需要使用舊版程式庫 (1.3.0 版或更早版本),請參閱 SageMaker AI Python SDK 文件中的封存 SageMaker AI 分散式資料平行處理文件 SageMaker

PyTorch Lightning

SMDDP 程式庫可在下列適用於 PyTorch 的 SageMaker AI Framework 容器和 SMP Docker 容器中用於 PyTorch Lightning。

PyTorch Lightning v2

PyTorch Lightning 版本 PyTorch 版本 SMDDP 程式庫版本 預先安裝 SMDDP 的 SageMaker AI Framework Container 映像 預先安裝 SMDDP 的 SMP Docker 映像 二進位檔案的網址**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 目前無法使用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Lightning 版本 PyTorch 版本 SMDDP 程式庫版本 預先安裝 SMDDP 的 SageMaker AI Framework Container 映像 二進位檔案 URL **

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** 二進位檔案URLs 用於在自訂容器中安裝 SMDDP 程式庫。如需詳細資訊,請參閱使用 SageMaker AI 分散式資料平行程式庫建立您自己的 Docker 容器

注意

PyTorch Lightning 及公用程式程式庫 (例如 Lightning Bolts) 未預先安裝於 PyTorch DLC。當您建構 SageMaker AI PyTorch 估算器並在步驟 2 中提交訓練任務請求時,您需要提供 requirements.txt,才能lightning-bolts在 SageMaker AI PyTorch 訓練容器中安裝 pytorch-lightning和 。

# requirements.txt pytorch-lightning lightning-bolts

如需指定來源目錄以放置requirements.txt檔案以及訓練指令碼和任務提交的詳細資訊,請參閱《Amazon SageMaker AI Python SDK 文件》中的使用第三方程式庫

Hugging Face 轉換器

Hugging Face 的 AWS 深度學習容器使用 PyTorch 和 TensorFlow 的 SageMaker 訓練容器作為基本映像。若要查詢 Hugging Face 轉換器程式庫版本及配對的 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器先前的 Hugging Face 容器版本

TensorFlow (已棄用)

重要

SMDDP 程式庫已停止支援 TensorFlow,且不再於 2.11.0 版之後在適用於 TensorFlow DLCs 中提供。下表列出先前已安裝 SMDDP 程式庫的 TensorFlow DLCs。

TensorFlow 版本 SMDDP 程式庫版本
2.9.1、2.10.1、2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS 區域

SMDDP 程式庫可在 SageMaker AI 的 AWS 區域 深度學習容器和 SMP Docker 映像正在使用的所有 中使用。 AWS SageMaker

支援的執行個體類型

SMDDP 程式庫需要下列其中一個執行個體類型。

執行個體類型
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
提示

若要在啟用 EFA 的執行個體類型上正確執行分散式訓練,您應該透過設定 VPC 的安全群組來啟用執行個體之間的流量,以允許進出安全群組本身的所有傳入和傳出流量。若要了解如何設定安全群組規則,請參閱《Amazon EC2 使用者指南》中的步驟 1:準備啟用 EFA 的安全群組

重要

* SMDDP 程式庫已停止支援將其 P3 執行個體上的集體通訊操作最佳化。雖然您仍然可以在ml.p3dn.24xlarge執行個體上利用 SMDDP 最佳化AllReduce的集體,但將無法進一步開發支援來增強此執行個體類型的效能。請注意,SMDDP 最佳化AllGather集合僅適用於 P4 執行個體。

如需執行個體類型的空間,請參閱 Amazon EC2 執行個體類型頁面中的加速運算區段。如需執行個體定價的資訊,請參閱 Amazon SageMaker AI 定價

如果您遇到類似以下的錯誤訊息,請遵循請求提高 SageMaker AI 資源的服務配額中的指示。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.