

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# サポートされているフレームワーク、 AWS リージョンおよびインスタンスタイプ
<a name="distributed-data-parallel-support"></a>

SageMaker AI 分散データ並列処理 (SMDDP) ライブラリを使用する前に、サポートされている ML フレームワークとインスタンスタイプを確認し、 AWS アカウントと に十分なクォータがあるかどうかを確認してください AWS リージョン。

## サポートされるフレームワーク
<a name="distributed-data-parallel-supported-frameworks"></a>

次の表には、SageMaker AI と SMDDP がサポートしている深層学習フレームワークとそのバージョンをまとめています。SMDDP ライブラリは [SageMaker AI フレームワークコンテナ](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)で利用でき、[SageMaker モデル並列処理 (SMP) ライブラリ v2 によって分散される Docker コンテナ](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2)に統合されています。また、バイナリファイルとしてダウンロード可能です。

**注記**  
SMDDP ライブラリの最新の更新情報とリリースノートを確認するには、「[SageMaker AI データ並列処理ライブラリのリリースノート](data-parallel-release-notes.md)」を参照してください。

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Lightning](#distributed-data-parallel-supported-frameworks-lightning)
+ [Hugging Face Transformer](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow (非推奨)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch バージョン | SMDDP ライブラリのバージョン | SMDDP がプリインストールされた SageMaker AI フレームワークコンテナイメージ | SMDDP がプリインストールされた SMP Docker イメージ | バイナリファイルの URL\$1\$1 | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | 利用不可 | 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\$1dataparallel-2.5.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | 現時点では利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 「v2.1.0」 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\$1dataparallel-1.8.0-cp310-cp310-linux\$1x86\$164.whl | 
| v1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\$1dataparallel-1.7.0-cp39-cp39-linux\$1x86\$164.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\$1dataparallel-1.6.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\$1dataparallel-1.4.1-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 バイナリファイルの URL は、カスタムコンテナに SMDDP をインストールする場合に使用します。詳細については、「[SageMaker AI 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する](data-parallel-bring-your-own-container.md)」を参照してください。

**注記**  
SMDDP ライブラリは、[SageMaker AI Framework Containers ](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)と [SMP Docker イメージ](distributed-model-parallel-support-v2.md) AWS リージョン が稼働している で使用できます。

**注記**  
SMDDP ライブラリ v1.4.0 以降は、PyTorch 分散 (torch.distributed) データ並列処理 (torch.parallel.DistributedDataParallel) のバックエンドとして機能します。この変更に伴い、PyTorch 分散パッケージの以下の [smdistributed API](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) は非推奨となります。  
`smdistributed.dataparallel.torch.distributed` を廃止しました。代わりに [torch.distributed](https://pytorch.org/docs/stable/distributed.html) パッケージを使用してください。
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel` を廃止しました。代わりに「[torch.nn.parallel.DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html)」API を使用してください。
以前のバージョンのライブラリ (v1.3.0 以前) を使用する必要がある場合は、*SageMaker AI Python SDK ドキュメント*で [SageMaker AI 分散データ並列処理に関するアーカイブ済みドキュメント](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive)を参照してください。

### PyTorch Lightning
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

SMDDP ライブラリは PyTorch Lightning に対応しており、次の PyTorch 用の SageMaker AI フレームワークコンテナと SMP Docker コンテナで使用できます。

**PyTorch Lightning v2**


| PyTorch Lightning バージョン | PyTorch バージョン | SMDDP ライブラリのバージョン | SMDDP がプリインストールされた SageMaker AI フレームワークコンテナイメージ | SMDDP がプリインストールされた SMP Docker イメージ | バイナリファイルの URL\$1\$1 | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | 現時点では利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\$1dataparallel-2.3.0-cp311-cp311-linux\$1x86\$164.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\$1dataparallel-2.2.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\$1dataparallel-2.1.0-cp310-cp310-linux\$1x86\$164.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | 利用不可 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\$1dataparallel-2.0.2-cp310-cp310-linux\$1x86\$164.whl | 

**PyTorch Lightning v1**


| PyTorch Lightning バージョン | PyTorch バージョン | SMDDP ライブラリのバージョン | SMDDP がプリインストールされた SageMaker AI フレームワークコンテナイメージ | バイナリファイルの URL \$1\$1 | 
| --- | --- | --- | --- | --- | 
|  1.7.2 1.7.0 1.6.4 1.6.3 1.5.10  | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\$1dataparallel-1.5.0-cp38-cp38-linux\$1x86\$164.whl | 

\$1\$1 バイナリファイルの URL は、カスタムコンテナに SMDDP をインストールする場合に使用します。詳細については、「[SageMaker AI 分散データ並列ライブラリを使用して独自の Docker コンテナを作成する](data-parallel-bring-your-own-container.md)」を参照してください。

**注記**  
PyTorch Lightning と Lightning Bolts などのユーティリティライブラリは、PyTorch DLC にはプリインストールされていません。[Step 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator) で SageMaker AI PyTorch 推定器を作成してトレーニングジョブリクエストを送信する場合、SageMaker AI PyTorch トレーニングコンテナに `pytorch-lightning` および `lightning-bolts` をインストールするために `requirements.txt` を指定する必要があります。  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
トレーニングスクリプトやジョブ送信と一緒に `requirements.txt` ファイルを配置するソースディレクトリを指定する方法の詳細については、Amazon SageMaker AI Python SDK ドキュメントの「[Using third-party libraries](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12)」を参照してください。

### Hugging Face Transformer
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

Hugging Face の AWS 深層学習コンテナは、PyTorch と TensorFlow の SageMaker トレーニングコンテナをベースイメージとして使用します。Hugging Face Transformers ライブラリのバージョンとペアになる PyTorch と TensorFlow のバージョンを調べるには、最新の [Hugging Face コンテナ](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers)と[以前の Hugging Face コンテナバージョン](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions)を参照してください。

### TensorFlow (非推奨)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**重要**  
SMDDP ライブラリは TensorFlow のサポートを終了し、v2.11.0 より新しい TensorFlow の DLC では使用できなくなりました。次の表には、SMDDP ライブラリがインストールされている以前の TensorFlow 用 DLC をまとめています。


| TensorFlow バージョン | SMDDP ライブラリのバージョン | 
| --- | --- | 
| 2.9.1、2.10.1、2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## AWS リージョン
<a name="distributed-data-parallel-availablity-zone"></a>

SMDDP ライブラリは、 AWS リージョン [AWS Deep Learning Containers for SageMaker AI ](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only)と [SMP Docker イメージ](distributed-model-parallel-support-v2.md)が稼働しているすべての で使用できます。

## サポートされるインスタンスタイプ
<a name="distributed-data-parallel-supported-instance-types"></a>

SMDDP ライブラリには、次のいずれかのインスタンスタイプが必要です。


| インスタンスタイプ | 
| --- | 
| ml.p3dn.24xlarge\$1 | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**ヒント**  
EFA 対応のインスタンスタイプで分散トレーニングを適切に実行するには、VPC のセキュリティグループとの間のインバウンドトラフィックとアウトバウンドトラフィックをすべて許可するように設定し、インスタンス間のトラフィックを有効にする必要があります。セキュリティグループのルールを設定する方法については、「*Amazon EC2 ユーザーガイド*」の「[ステップ 1: EFA 対応のセキュリティグループを準備する](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security)」を参照してください。

**重要**  
\$1 SMDDP ライブラリは、P3 インスタンスにおける集合通信演算の最適化のサポートを終了しました。SMDDP の最適化した `AllReduce` 集合演算を引き続き `ml.p3dn.24xlarge` インスタンスで使用できますが、このインスタンスタイプにおけるパフォーマンス向上のための開発サポートは今後は提供されません。SMDDP の最適化した `AllGather` 集合演算は P4 インスタンスでのみ使用できます。

インスタンスタイプの仕様については、**「Amazon EC2 インスタンスタイプ」ページ**の[「高速コンピューティング」](https://aws.amazon.com/ec2/instance-types/)のセクションを参照してください。インスタンスの料金の詳細については、[「Amazon SageMaker の料金」](https://aws.amazon.com/sagemaker/pricing/)を参照してください。

次のようなエラーメッセージが表示された場合は、「[Request a service quota increase for SageMaker AI resources](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure)」の手順に従います。

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```