サポートされているフレームワーク、 AWS リージョン、およびインスタンスタイプ - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされているフレームワーク、 AWS リージョン、およびインスタンスタイプ

SageMaker AI 分散データ並列処理 (SMDDP) ライブラリを使用する前に、サポートされている ML フレームワークとインスタンスタイプ、および AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。

サポートされるフレームワーク

次の表は、SageMaker AI と SMDDP がサポートする深層学習フレームワークとそのバージョンを示しています。SMDDP ライブラリは SageMaker AI Framework Containers で利用でき、SageMaker モデル並列処理 (SMP) ライブラリ v2 によって配布される Docker コンテナに統合されるか、バイナリファイルとしてダウンロードできます。

注記

SMDDP ライブラリの最新の更新情報とリリースノートを確認するには、「SageMaker AI データ並列処理ライブラリのリリースノート」を参照してください。

PyTorch

PyTorch バージョン SMDDP ライブラリのバージョン SMDDP がプリインストールされた SageMaker AI Framework Container イメージ SMDDP がプリインストールされた SMP Docker イメージ バイナリファイルの URL**
v2.3.1 smdistributed-dataparallel==v2.5.0 利用不可 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 現時点では利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
「v2.1.0」 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** バイナリファイルの URL は、カスタムコンテナに SMDDP をインストールする場合に使用します。詳細については、「SageMaker AI 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する」を参照してください。

注記

SMDDP ライブラリは、SageMaker AI Framework Containers SMP Docker イメージ AWS リージョン が稼働している で使用できます。

注記

SMDDP ライブラリ v1.4.0 以降は、PyTorch 分散 (torch.distributed) データ並列処理 (torch.parallel.DistributedDataParallel) のバックエンドとして機能します。この変更に伴い、PyTorch 分散パッケージの以下の smdistributed API は非推奨となります。

  • smdistributed.dataparallel.torch.distributed を廃止しました。代わりに torch.distributed パッケージを使用してください。

  • smdistributed.dataparallel.torch.parallel.DistributedDataParallel を廃止しました。代わりに「torch.nn.parallel.DistributedDataParallel」API を使用してください。

以前のバージョンのライブラリ (v1.3.0 以前) を使用する必要がある場合は、SageMaker AI Python SDK ドキュメントのアーカイブされた SageMaker AI 分散データ並列処理ドキュメント SageMakerを参照してください。

PyTorch Lightning

SMDDP ライブラリはPyTorch 用の次の SageMaker AI Framework Containers と SMP Docker コンテナで PyTorch Lightning で使用できます。

PyTorch Lightning v2

PyTorch Lightning バージョン PyTorch バージョン SMDDP ライブラリのバージョン SMDDP がプリインストールされた SageMaker AI Framework Container イメージ SMDDP がプリインストールされた SMP Docker イメージ バイナリファイルの URL**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker 現時点では利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker 利用不可 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Lightning バージョン PyTorch バージョン SMDDP ライブラリのバージョン SMDDP がプリインストールされた SageMaker AI Framework Container イメージ バイナリファイルの URL **

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** バイナリファイルの URL は、カスタムコンテナに SMDDP をインストールする場合に使用します。詳細については、「SageMaker AI 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する」を参照してください。

注記

PyTorch Lightning と Lightning Bolts などのユーティリティライブラリは、PyTorch DLC にはプリインストールされていません。SageMaker AI PyTorch 推定器を構築し、ステップ 2 でトレーニングジョブリクエストを送信するときは、SageMaker AI PyTorch トレーニングコンテナlightning-boltspytorch-lightningと をインストールrequirements.txtするために を指定する必要があります。

# requirements.txt pytorch-lightning lightning-bolts

トレーニングスクリプトとジョブ送信とともにrequirements.txtファイルを配置するソースディレクトリを指定する方法の詳細については、Amazon SageMaker AI Python SDK ドキュメントの「サードパーティーライブラリの使用」を参照してください。

Hugging Face Transformer

Hugging Face の AWS 深層学習コンテナは、PyTorch と TensorFlow の SageMaker トレーニングコンテナをベースイメージとして使用します。Hugging Face Transformers ライブラリのバージョンとペアになる PyTorch と TensorFlow のバージョンを調べるには、最新の Hugging Face コンテナ以前の Hugging Face コンテナバージョンを参照してください。

TensorFlow (非推奨)

重要

SMDDP ライブラリは TensorFlow のサポートを終了し、v2.11.0 より新しい TensorFlow の DLC では使用できなくなりました。次の表には、SMDDP ライブラリがインストールされている以前の TensorFlow 用 DLC をまとめています。

TensorFlow バージョン SMDDP ライブラリのバージョン
2.9.1、2.10.1、2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

AWS リージョン

SMDDP ライブラリは、AWS Deep Learning Containers for SageMaker AI と SMP Docker イメージ AWS リージョン が稼働しているすべての で使用できます。 サポートされるフレームワークと AWS リージョン

サポートされるインスタンスタイプ

SMDDP ライブラリには、次のいずれかのインスタンスタイプが必要です。

インスタンスタイプ
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
ヒント

EFA 対応のインスタンスタイプで分散トレーニングを適切に実行するには、VPC のセキュリティグループとの間のインバウンドトラフィックとアウトバウンドトラフィックをすべて許可するように設定し、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループのルールを設定する方法については、「Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応のセキュリティグループを準備する」を参照してください。

重要

* SMDDP ライブラリは、P3 インスタンスにおける集合通信演算の最適化のサポートを終了しました。SMDDP の最適化した AllReduce 集合演算を引き続き ml.p3dn.24xlarge インスタンスで使用できますが、このインスタンスタイプにおけるパフォーマンス向上のための開発サポートは今後は提供されません。SMDDP の最適化した AllGather 集合演算は P4 インスタンスでのみ使用できます。

インスタンスタイプの仕様については、「Amazon EC2 インスタンスタイプ」ページ「高速コンピューティング」のセクションを参照してください。インスタンスの料金の詳細については、Amazon SageMakerの料金」を参照してください。

次のようなエラーメッセージが表示された場合は、SageMaker AI リソースのサービスクォータの引き上げをリクエストする」の手順に従います。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.