本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的架構與 AWS 區域
在使用 SageMaker 模型平行程式庫之前,請檢查支援的架構和執行個體類型,並判斷您的 AWS 帳戶和 AWS 區域.
注意
若要查看程式庫的最新更新和版本說明,請參閱 SageMaker Python SDK 文件中的SageMaker 模型平行發行
支援的架構
SageMaker 模型平行程式庫支援下列深度學習架構,並可在 De AWS ep Learning Containers (DLC) 中取得,或以二進位檔案形式下載。
PyTorch 支援的版本 SageMaker 和 SageMaker 模型平行程式庫
PyTorch 版本 | SageMaker 模型平行程式庫版本 | smdistributed-modelparallel 整合DLC影像 URI |
URL的二進製文件 ** |
---|---|---|---|
v2.0.0 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -2.0.0/構建人造物/2023 年 4 月 14 日-中小分發 _ 模型並行-1.15.0-CP310-CP310-鏈路 _ 64. |
V1.13.1 | smdistributed-modelparallel==v1.15.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.13.1/構建人造物/ |
v1.12.1 | smdistributed-modelparallel==v1.13.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.12.1/構建人造物/ 2022-12-08-21-34/SM分佈_模型並行模型-1.13.0-CP38-亞麻 _ x86_64.Whl |
v1.12.0 | smdistributed-modelparallel==v1.11.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.12.0/構建人造物/2022-12-16-58/SM分佈_模型並行模型-1.11.0-CP38-亞麻 _ x86_64.Whl |
v1.11.0 | smdistributed-modelparallel==v1.10.0 |
|
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/py火炬 -1.11.0/構建工件/2022-07-11-19-23/SM分佈_模型並行模型-1.10.0-CP38-鏈-x86_64.Whl |
V1.10.2 |
smdistributed-modelparallel==v1.7.0 |
|
- |
v1.10.0 |
smdistributed-modelparallel==v1.5.0 |
|
- |
v1.9.1 |
smdistributed-modelparallel==v1.4.0 |
|
- |
1.8.1* |
smdistributed-modelparallel==v1.6.0 |
|
- |
注意
SageMaker 模型平行程式庫 v1.6.0 及更新版本提供的延伸功能。 PyTorch如需詳細資訊,請參閱 SageMaker 模型平行程式庫的核心功能。
** 二進位檔案用於在自訂容器中安裝 SageMaker 模型平行程式庫。URLs如需詳細資訊,請參閱使用 SageMaker 分散式模型平行程式庫建立您自己的 Docker 容器。
TensorFlow 支援的版本 SageMaker 和 SageMaker 模型平行程式庫
TensorFlow 版本 | SageMaker 模型平行程式庫版本 | smdistributed-modelparallel 整合DLC影像 URI |
---|---|---|
v2.6.0 | smdistributed-modelparallel==v1.4.0 |
763104351884.dkr.ecr. |
v2.5.1 | smdistributed-modelparallel==v1.4.0
|
763104351884.dkr.ecr.
|
Hugging Face 變壓器版本支持 SageMaker 和分 SageMaker佈式數據 parallel 庫
Hugging Face 部的 AWS Deep Learning Containers 使用 SageMaker 訓練容器作為其基本圖像, PyTorch 並將其用 TensorFlow 作其基本圖像。要查找 Hugging Face 變形金剛庫版本以及配對 PyTorch 和 TensorFlow 版本,請參閱最新的 Hugging Face 容器
AWS 區域
資 SageMaker 料 parallel 程式庫可在所有服務 AWS 區域 中的 AWS Deep Learning Contain
支援的執行個體類型
SageMaker 模型平行程度程式庫需要下列其中一種 ML 執行個體類型。
執行個體類型 |
---|
ml.g4dn.12xlarge |
ml.p3.16xlarge |
ml.p3dn.24xlarge
|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
如需執行個體類型的規格,請參閱 Amazon EC2 執行個體類型頁
如果您遇到類似下列內容的錯誤訊息,請遵循要求增加 SageMaker 資源的服務配額中的指示。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.