翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
サポートされているフレームワーク AWS リージョン、およびインスタンスタイプ
SageMaker 分散データ並列処理 (SMDDP) ライブラリを使用する前に、サポートされている ML フレームワークとインスタンスタイプ、および AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。
サポートされるフレームワーク
次の表は、 と SMDDP SageMaker がサポートする深層学習フレームワークとそのバージョンを示しています。SMDDP ライブラリはSageMaker フレームワークコンテナ
注記
SMDDP ライブラリの最新の更新とリリースノートを確認するには、「」を参照してくださいSageMaker データ並列処理ライブラリのリリースノート。
PyTorch
PyTorch バージョン | SMDDP ライブラリのバージョン | SageMaker SMDDP がプリインストールされたフレームワークコンテナイメージ | SMDDP がプリインストールされた SMP Docker イメージ | バイナリファイルの URL** |
---|---|---|---|---|
v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
現在利用できません | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
「v2.1.0」 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** バイナリファイルの URLs は、カスタムコンテナに SMDDP ライブラリをインストールするためのものです。詳細については、「 SageMaker 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する」を参照してください。
注記
SMDDP ライブラリは、SageMaker フレームワークコンテナ
注記
SMDDP ライブラリ v1.4.0 以降は、 PyTorch 分散 (torch.distributed) データ並列処理 (torch.parallel.DistributedDataParallel) のバックエンドとして機能します。変更に従って、 PyTorch 分散パッケージの次の smdistributed APIs
-
smdistributed.dataparallel.torch.distributed
を廃止しました。代わりに torch.distributedパッケージを使用してください。 -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
を廃止しました。代わりに torch.nn.parallel.DistributedDataParallelAPI を使用します。
以前のバージョンのライブラリ (v1.3.0 以前) を使用する必要がある場合は、Python SDK ドキュメントのアーカイブされた SageMaker 分散データ並列処理
PyTorch Lightning
SMDDP ライブラリは、 PyTorch および SMP Docker コンテナの次の SageMaker フレームワークコンテナで PyTorch Lightning で使用できます。
PyTorch Lightning v2
PyTorch Lightning バージョン | PyTorch バージョン | SMDDP ライブラリのバージョン | SageMaker SMDDP がプリインストールされたフレームワークコンテナイメージ | SMDDP がプリインストールされた SMP Docker イメージ | バイナリファイルの URL** |
---|---|---|---|---|---|
2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
現在利用できません | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning v1
PyTorch Lightning バージョン | PyTorch バージョン | SMDDP ライブラリのバージョン | SageMaker SMDDP がプリインストールされたフレームワークコンテナイメージ | バイナリファイルの URL ** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** バイナリファイルの URLs は、カスタムコンテナに SMDDP ライブラリをインストールするためのものです。詳細については、「 SageMaker 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する」を参照してください。
注記
PyTorch Lightning や Lightning Bolts などのユーティリティライブラリは PyTorch DLCsにプリインストールされていません。ステップ 2 で SageMaker PyTorch 推定器を構築し、トレーニングジョブリクエストを送信するときは、トレーニングコンテナlightning-bolts
に SageMaker PyTorch pytorch-lightning
と をインストールrequirements.txt
するために を指定する必要があります。 https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator
# requirements.txt pytorch-lightning lightning-bolts
トレーニングスクリプトとジョブ送信とともにrequirements.txt
ファイルを配置するソースディレクトリを指定する方法の詳細については、Amazon SageMaker Python SDK ドキュメントの「サードパーティーライブラリ
Hugging Face Transformer
Hugging Face の AWS Deep Learning Containers は、 PyTorch と の SageMaker トレーニングコンテナをベースイメージ TensorFlow として使用します。Hugging Face Transformers ライブラリのバージョンとペア PyTorch TensorFlow およびバージョンを確認するには、最新の Hugging Face Containers
TensorFlow (廃止)
重要
SMDDP ライブラリは のサポートを終了 TensorFlow し、 v2.11.0 より TensorFlow 後の DLCsました。次の表DLCs を示します。 TensorFlow
TensorFlow バージョン | SMDDP ライブラリのバージョン |
---|---|
2.9.1、2.10.1、2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
AWS リージョン
SMDDP ライブラリは、 および SMP AWS SageMaker
サポートされるインスタンスタイプ
SMDDP ライブラリには、次のいずれかのインスタンスタイプが必要です。
インスタンスタイプ |
---|
ml.p3dn.24xlarge * |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ヒント
EFA 対応インスタンスタイプで分散トレーニングを適切に実行するには、VPC のセキュリティグループを設定して、セキュリティグループ自体との間のすべてのインバウンドトラフィックとアウトバウンドトラフィックを許可することで、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループルールの設定方法については、「Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応セキュリティグループを準備する」を参照してください。 Amazon EC2
重要
* SMDDP ライブラリは、P3 インスタンスでの集合通信オペレーションの最適化のサポートを終了しました。ml.p3dn.24xlarge
インスタンスで SMDDP 最適化AllReduce
集合体を引き続き利用できますが、このインスタンスタイプでのパフォーマンスを向上させるための開発サポートはこれ以上ありません。SMDDP 最適化AllGather
集合体は P4 インスタンスでのみ使用できることに注意してください。
インスタンスタイプの仕様については、「Amazon EC2 インスタンスタイプ」ページの「高速コンピューティング」
次のようなエラーメッセージが表示された場合は、 SageMaker 「リソースのサービスクォータ引き上げをリクエストする」の手順に従います。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.