サポートされるフレームワークと AWS リージョン - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされるフレームワークと AWS リージョン

SageMaker モデル並列処理ライブラリを使用する前に、サポートされているフレームワークとインスタンスタイプを確認し、 AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。

注記

ライブラリの最新の更新とリリースノートを確認するには、SageMaker Python SDKドキュメントSageMaker 「モデル並列リリースノート」を参照してください。

サポートされるフレームワーク

SageMaker モデル並列処理ライブラリは、次の深層学習フレームワークをサポートしており、 AWS 深層学習コンテナ (DLC) で利用できるか、バイナリファイルとしてダウンロードできます。

PyTorch SageMaker および SageMaker モデル並列処理ライブラリでサポートされている バージョン

PyTorch バージョン SageMaker モデル並列処理ライブラリのバージョン smdistributed-modelparallel 統合DLCイメージ URI URL バイナリファイルの**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
注記

SageMaker モデル並列処理ライブラリ v1.6.0 以降では、 の拡張機能が提供されます PyTorch。詳細については、「Model SageMaker Parallelism Library の主な機能」を参照してください。

** バイナリファイルの はURLs、 SageMaker モデル並列処理ライブラリをカスタムコンテナにインストールするためのものです。詳細については、「分散モデル並列ライブラリを使用して独自の Docker コンテナを作成します。 SageMaker 」を参照してください。

TensorFlow SageMaker および SageMaker モデル並列処理ライブラリでサポートされている バージョン

TensorFlow バージョン SageMaker モデル並列処理ライブラリのバージョン smdistributed-modelparallel 統合DLCイメージ URI
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Hugging Face Transformers のバージョンは、 SageMaker と分散データ並列ライブラリでサポートされています SageMaker。

Hugging Face の AWS Deep Learning Containers は、 PyTorch と の SageMaker トレーニングコンテナをベースイメージ TensorFlow として使用します。Hugging Face Transformers ライブラリのバージョンとペア PyTorch TensorFlow およびバージョンを確認するには、最新の Hugging Face コンテナ以前の Hugging Face コンテナバージョンを参照してください。

AWS リージョン

SageMaker データ並列ライブラリは、 の AWS Deep Learning Containers SageMaker AWS リージョン が稼働しているすべての で使用できます。詳細については、「Available Deep Learning Containers Images」を参照してください。

サポートされるインスタンスタイプ

SageMaker モデル並列処理ライブラリには、次のいずれかの ML インスタンスタイプが必要です。

インスタンスタイプ
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

インスタンスタイプの仕様については、「Amazon EC2 インスタンスタイプ」ページの「高速コンピューティング」セクションを参照してください。インスタンスの料金の詳細については、「Amazon SageMaker の料金」を参照してください。

次のようなエラーメッセージが発生した場合は、 SageMaker 「リソースのサービスクォータ引き上げをリクエストする」の手順に従います。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.