本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的架構 AWS 區域、和執行個體類型
在使用 SageMaker 分散式資料平行處理原則 (SMDDP) 程式庫之前,請檢查支援的 ML 架構和執行個體類型是否有足夠的配額,以及您 AWS 的帳戶和. AWS 區域
支援的架構
下表顯示深度學習架構及其支援 SMDDP SageMaker 的版本。SMDDP 程式庫可在SageMaker 架構容器
注意
若要查看 SMDDP 程式庫的最新更新和版本說明,請參閱。SageMaker 資料平行程式庫版本說明
PyTorch
PyTorch 版本 | SMDDP 程式庫版本 | SageMaker 已預先安裝 SMDDP 的架構容器映像檔 | 已預先安裝 SMDDP 的 SMP 泊塢視窗影像 | 二進位檔案的網址** |
---|---|---|---|---|
V2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
目前無法使用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
V2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.0 版 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
V1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** 二進位檔案的 URL 用於在自訂容器中安裝 SMDDP 程式庫。如需詳細資訊,請參閱 使用 SageMaker 分散式資料平行程式庫建立您自己的 Docker 容器。
注意
SMDDP 程式庫可在SageMaker 架構容器
注意
SMDDP 庫 v1.4.0 及更高版本可用作 PyTorch 分佈式(火炬分佈式)數據並行性(分散式)數據並行性的後端。 DistributedData平行)。根據這項變更,下列適用於分散式套件的 sm分 PyTorch 散式Api
-
smdistributed.dataparallel.torch.distributed
已棄用。請改用 torch.distributed套件。 -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
已棄用。使用平行的火炬 .n. DistributedData而不是並行API。
如果您需要使用舊版程式庫 (v1.3.0 或更新版本),請參閱 SageMakerPython SDK 文件中的封存 SageMaker 分散式資料平行處理原則文件
PyTorch 閃電
SMDDP 程式庫適用於下列 SageMaker 框架容器 PyTorch 和 SMP 泊塢視窗容器中的 PyTorch 閃電。
PyTorch 閃電 V2
PyTorch 閃電版 | PyTorch 版本 | SMDDP 程式庫版本 | SageMaker 已預先安裝 SMDDP 的架構容器映像檔 | 已預先安裝 SMDDP 的 SMP 泊塢視窗影像 | 二進位檔案的網址** |
---|---|---|---|---|---|
2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
目前無法使用 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
無 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch 閃電 V1
PyTorch 閃電版 | PyTorch 版本 | SMDDP 程式庫版本 | SageMaker 已預先安裝 SMDDP 的架構容器映像檔 | 二進位檔案 URL ** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** 二進位檔案的 URL 用於在自訂容器中安裝 SMDDP 程式庫。如需詳細資訊,請參閱 使用 SageMaker 分散式資料平行程式庫建立您自己的 Docker 容器。
注意
PyTorch 閃電及其公用程式庫 (例如閃電螺栓) 未預先安裝在 PyTorch DLC 中。當您在步驟 2 中建構 SageMaker PyTorch 估算器並提交訓練工作要求時,您需requirements.txt
要提供安裝pytorch-lightning
和 SageMaker PyTorch訓練容器lightning-bolts
中的內容。
# requirements.txt pytorch-lightning lightning-bolts
如需有關指定要放置requirements.txt
檔案的來源目錄以及訓練指令碼和任務提交的詳細資訊,請參閱 Amazon SageMaker Python SDK 文件中的使用第三方程式庫
Hugging Face 轉換器
Hugging Face 部的 AWS Deep Learning Containers 使用 SageMaker 訓練容器作為其基本圖像, PyTorch 並將其用 TensorFlow 作其基本圖像。要查找 Hugging Face 變形金剛庫版本以及配對 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器
TensorFlow (已廢除)
重要
SMDDP 程式庫已停止支援, TensorFlow 且在版 TensorFlow 本 2.11.0 之後的 DLC 中不再提供。下表列出先前已安裝 SMDDP 程式庫的 DLC。 TensorFlow
TensorFlow 版本 | SMDDP 程式庫版本 |
---|---|
2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
AWS 區域
SMDDP 程式庫適用於AWS Deep Learning Contain
支援的執行個體類型
SMDDP 程式庫需要下列其中一種執行個體類型。
執行個體類型 |
---|
ml.p3dn.24xlarge * |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
提示
若要在啟用 EFA 的執行個體類型上正確執行分散式訓練,您應該設定 VPC 的安全性群組,以允許進出安全群組本身的所有輸入和輸出流量,以啟用執行個體之間的流量。若要了解如何設定安全群組規則,請參閱 Amazon EC2 使用者指南中的步驟 1:準備啟用 EFA 的安全群組。
重要
* SMDDP 程式庫已停止對 P3 執行個體集體通訊作業進行最佳化的支援。雖然您仍然可以在執行個AllReduce
體上使用 SMDDP 最佳化集ml.p3dn.24xlarge
體,但不會有進一步的開發支援來增強此執行個體類型的效能。請注意,SMDDP 最佳化AllGather
集體僅適用於 P4 執行個體。
如需執行個體類型的空間,請參閱 Amazon EC2 執行個體類型頁面
如果您遇到類似下列內容的錯誤訊息,請遵循要求增加 SageMaker 資源的服務配額中的指示。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.