支援的架構 AWS 區域、和執行個體類型 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構 AWS 區域、和執行個體類型

在使用 SageMaker 分散式資料平行處理原則 (SMDDP) 程式庫之前,請檢查支援的 ML 架構和執行個體類型是否有足夠的配額,以及您 AWS 的帳戶和. AWS 區域

支援的架構

下表顯示深度學習架構及其支援 SMDDP SageMaker 的版本。SMDDP 程式庫可在SageMaker 架構容器中取得,整合在由 SageMaker 模型平行處理原則 (SMP) 程式庫 v2 發佈的 Docker 容器中,或以二進位檔案形式下載。

注意

若要查看 SMDDP 程式庫的最新更新和版本說明,請參閱。SageMaker 資料平行程式庫版本說明

PyTorch

PyTorch 版本 SMDDP 程式庫版本 SageMaker 已預先安裝 SMDDP 的架構容器映像檔 已預先安裝 SMDDP 的 SMP 泊塢視窗影像 二進位檔案的網址**
V2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 目前無法使用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
V2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.0 版 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
V1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** 二進位檔案的 URL 用於在自訂容器中安裝 SMDDP 程式庫。如需詳細資訊,請參閱 使用 SageMaker 分散式資料平行程式庫建立您自己的 Docker 容器

注意

SMDDP 程式庫可在SageMaker 架構容器SMP 泊塢視窗映像正在使用的 AWS 區域 地方使用。

注意

SMDDP 庫 v1.4.0 及更高版本可用作 PyTorch 分佈式(火炬分佈式)數據並行性(分散式)數據並行性的後端。 DistributedData平行)。根據這項變更,下列適用於分散式套件的 sm分 PyTorch 散式Api 已被淘汰。

如果您需要使用舊版程式庫 (v1.3.0 或更新版本),請參閱 SageMakerPython SDK 文件中的封存 SageMaker 分散式資料平行處理原則文件

PyTorch 閃電

SMDDP 程式庫適用於下列 SageMaker 框架容器 PyTorch 和 SMP 泊塢視窗容器中的 PyTorch 閃電。

PyTorch 閃電 V2

PyTorch 閃電版 PyTorch 版本 SMDDP 程式庫版本 SageMaker 已預先安裝 SMDDP 的架構容器映像檔 已預先安裝 SMDDP 的 SMP 泊塢視窗影像 二進位檔案的網址**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 目前無法使用 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch 閃電 V1

PyTorch 閃電版 PyTorch 版本 SMDDP 程式庫版本 SageMaker 已預先安裝 SMDDP 的架構容器映像檔 二進位檔案 URL **

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** 二進位檔案的 URL 用於在自訂容器中安裝 SMDDP 程式庫。如需詳細資訊,請參閱 使用 SageMaker 分散式資料平行程式庫建立您自己的 Docker 容器

注意

PyTorch 閃電及其公用程式庫 (例如閃電螺栓) 未預先安裝在 PyTorch DLC 中。當您在步驟 2 中建構 SageMaker PyTorch 估算器並提交訓練工作要求時,您需requirements.txt要提供安裝pytorch-lightning和 SageMaker PyTorch訓練容器lightning-bolts中的內容。

# requirements.txt pytorch-lightning lightning-bolts

如需有關指定要放置requirements.txt檔案的來源目錄以及訓練指令碼和任務提交的詳細資訊,請參閱 Amazon SageMaker Python SDK 文件中的使用第三方程式庫

Hugging Face 轉換器

Hugging Face 部的 AWS Deep Learning Containers 使用 SageMaker 訓練容器作為其基本圖像, PyTorch 並將其用 TensorFlow 作其基本圖像。要查找 Hugging Face 變形金剛庫版本以及配對 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器之前的 Hugging Face 容器版本。

TensorFlow (已廢除)

重要

SMDDP 程式庫已停止支援, TensorFlow 且在版 TensorFlow 本 2.11.0 之後的 DLC 中不再提供。下表列出先前已安裝 SMDDP 程式庫的 DLC。 TensorFlow

TensorFlow 版本 SMDDP 程式庫版本
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS 區域

SMDDP 程式庫適用於AWS Deep Learning Contain ers SageMaker 和 SMP Docker 映像檔正在服務的所有 AWS 區域 位置。

支援的執行個體類型

SMDDP 程式庫需要下列其中一種執行個體類型。

執行個體類型
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
提示

若要在啟用 EFA 的執行個體類型上正確執行分散式訓練,您應該設定 VPC 的安全性群組,以允許進出安全群組本身的所有輸入和輸出流量,以啟用執行個體之間的流量。若要了解如何設定安全群組規則,請參閱 Amazon EC2 使用者指南中的步驟 1:準備啟用 EFA 的安全群組

重要

* SMDDP 程式庫已停止對 P3 執行個體集體通訊作業進行最佳化的支援。雖然您仍然可以在執行個AllReduce體上使用 SMDDP 最佳化集ml.p3dn.24xlarge體,但不會有進一步的開發支援來增強此執行個體類型的效能。請注意,SMDDP 最佳化AllGather集體僅適用於 P4 執行個體。

如需執行個體類型的空間,請參閱 Amazon EC2 執行個體類型頁面中的加速運算區段。如需執行個體定價的相關資訊,請參閱 Amazon SageMaker 定價

如果您遇到類似下列內容的錯誤訊息,請遵循要求增加 SageMaker 資源的服務配額中的指示。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.