サポートされているフレームワーク AWS リージョン、およびインスタンスタイプ - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされているフレームワーク AWS リージョン、およびインスタンスタイプ

SageMaker 分散データ並列処理 (SMDDP) ライブラリを使用する前に、サポートされている ML フレームワークとインスタンスタイプ、および AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。

サポートされるフレームワーク

次の表は、 と SMDDP SageMaker がサポートする深層学習フレームワークとそのバージョンを示しています。SMDDP ライブラリはSageMaker フレームワークコンテナ で利用でき、 SageMaker モデル並列処理 (SMP) ライブラリ v2 によって分散された Docker コンテナに統合されるか、バイナリファイルとしてダウンロードできます。

注記

SMDDP ライブラリの最新の更新とリリースノートを確認するには、「」を参照してくださいSageMaker データ並列処理ライブラリのリリースノート

PyTorch

PyTorch バージョン SMDDP ライブラリのバージョン SageMaker SMDDP がプリインストールされたフレームワークコンテナイメージ SMDDP がプリインストールされた SMP Docker イメージ バイナリファイルの URL**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 現在利用できません https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
「v2.1.0」 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** バイナリファイルの URLs は、カスタムコンテナに SMDDP ライブラリをインストールするためのものです。詳細については、「 SageMaker 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する」を参照してください。

注記

SMDDP ライブラリは、SageMaker フレームワークコンテナSMP Docker イメージ AWS リージョン が稼働中の で使用できます。

注記

SMDDP ライブラリ v1.4.0 以降は、 PyTorch 分散 (torch.distributed) データ並列処理 (torch.parallel.DistributedDataParallel) のバックエンドとして機能します。変更に従って、 PyTorch 分散パッケージの次の smdistributed APIs は廃止されました。

  • smdistributed.dataparallel.torch.distributed を廃止しました。代わりに torch.distributed パッケージを使用してください。

  • smdistributed.dataparallel.torch.parallel.DistributedDataParallel を廃止しました。代わりに torch.nn.parallel.DistributedDataParallel API を使用します。

以前のバージョンのライブラリ (v1.3.0 以前) を使用する必要がある場合は、Python SDK ドキュメントのアーカイブされた SageMaker 分散データ並列処理のドキュメントを参照してください。 SageMaker

PyTorch Lightning

SMDDP ライブラリは、 PyTorch および SMP Docker コンテナの次の SageMaker フレームワークコンテナで PyTorch Lightning で使用できます。

PyTorch Lightning v2

PyTorch Lightning バージョン PyTorch バージョン SMDDP ライブラリのバージョン SageMaker SMDDP がプリインストールされたフレームワークコンテナイメージ SMDDP がプリインストールされた SMP Docker イメージ バイナリファイルの URL**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 現在利用できません https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Lightning バージョン PyTorch バージョン SMDDP ライブラリのバージョン SageMaker SMDDP がプリインストールされたフレームワークコンテナイメージ バイナリファイルの URL **

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** バイナリファイルの URLs は、カスタムコンテナに SMDDP ライブラリをインストールするためのものです。詳細については、「 SageMaker 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する」を参照してください。

注記

PyTorch Lightning や Lightning Bolts などのユーティリティライブラリは PyTorch DLCsにプリインストールされていません。ステップ 2 で SageMaker PyTorch 推定器を構築し、トレーニングジョブリクエストを送信するときは、トレーニングコンテナlightning-boltsに SageMaker PyTorch pytorch-lightningと をインストールrequirements.txtするために を指定する必要があります。 https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator

# requirements.txt pytorch-lightning lightning-bolts

トレーニングスクリプトとジョブ送信とともにrequirements.txtファイルを配置するソースディレクトリを指定する方法の詳細については、Amazon SageMaker Python SDK ドキュメントの「サードパーティーライブラリの使用」を参照してください。

Hugging Face Transformer

Hugging Face の AWS Deep Learning Containers は、 PyTorch と の SageMaker トレーニングコンテナをベースイメージ TensorFlow として使用します。Hugging Face Transformers ライブラリのバージョンとペア PyTorch TensorFlow およびバージョンを確認するには、最新の Hugging Face Containers および以前の Hugging Face Container Versions を参照してください。

TensorFlow (廃止)

重要

SMDDP ライブラリは のサポートを終了 TensorFlow し、 v2.11.0 より TensorFlow 後の DLCsました。次の表DLCs を示します。 TensorFlow

TensorFlow バージョン SMDDP ライブラリのバージョン
2.9.1、2.10.1、2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS リージョン

SMDDP ライブラリは、 および SMP AWS SageMakerDocker イメージ AWS リージョン が稼働しているすべての で使用できます。 サポートされるフレームワークと AWS リージョン

サポートされるインスタンスタイプ

SMDDP ライブラリには、次のいずれかのインスタンスタイプが必要です。

インスタンスタイプ
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
ヒント

EFA 対応インスタンスタイプで分散トレーニングを適切に実行するには、VPC のセキュリティグループを設定して、セキュリティグループ自体との間のすべてのインバウンドトラフィックとアウトバウンドトラフィックを許可することで、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループルールの設定方法については、「Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応セキュリティグループを準備する」を参照してください。 Amazon EC2

重要

* SMDDP ライブラリは、P3 インスタンスでの集合通信オペレーションの最適化のサポートを終了しました。ml.p3dn.24xlarge インスタンスで SMDDP 最適化AllReduce集合体を引き続き利用できますが、このインスタンスタイプでのパフォーマンスを向上させるための開発サポートはこれ以上ありません。SMDDP 最適化AllGather集合体は P4 インスタンスでのみ使用できることに注意してください。

インスタンスタイプの仕様については、「Amazon EC2 インスタンスタイプ」ページ「高速コンピューティング」のセクションを参照してください。インスタンスの料金の詳細については、「Amazon の SageMaker 料金」を参照してください。

次のようなエラーメッセージが表示された場合は、 SageMaker 「リソースのサービスクォータ引き上げをリクエストする」の手順に従います。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.