サポートされるフレームワーク AWS リージョンサポートされるインスタンスタイプ

サポートされるフレームワークと AWS リージョン

SageMaker モデル並列処理ライブラリ v2 (SMP v2) を使用する前に、サポートされているフレームワークとインスタンスタイプを確認し、 AWS アカウントとに十分なクォータがあるかどうかを確認します AWS リージョン。

注記

ライブラリの最新の更新情報とリリースノートを確認するには、「SageMaker モデル並列処理ライブラリのリリースノート」を参照してください。

サポートされるフレームワーク

SMP v2 は、次の深層学習フレームワークをサポートしており、SMP Docker コンテナと SMP Conda チャネルを介して使用できます。SageMaker Python SDK でフレームワーク推定器クラスを使用し、SMP v2 を使用するディストリビューション設定を指定すると、SageMaker AI は自動的に SMP Docker コンテナを取得します。SMP v2 を使用するには、開発環境で SageMaker Python SDK を常に最新の状態に保つことをお勧めします。

SageMaker モデル並列処理ライブラリでサポートされている PyTorch バージョン

PyTorch バージョン	SageMaker モデル並列処理ライブラリバージョン	SMP Docker イメージの URI	SMP Enroot イメージ URI
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		該当なし
	`smdistributed-modelparallel==v2.6.0`		該当なし
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	該当なし
v2.3.1	`smdistributed-modelparallel==v2.4.0`		該当なし
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	該当なし
v2.2.0	`smdistributed-modelparallel==v2.2.0`		該当なし
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	該当なし
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	該当なし

SMP Conda チャネル

次の Amazon S3 バケットは、SMP サービスチームがホストするパブリック Conda チャネルです。SageMaker HyperPod クラスターなどの環境に SMP v2 ライブラリをインストールする場合は、この Conda チャネルを使用して正しく SMP ライブラリをインストールしてください。


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Conda チャネル全般の詳細については、Conda のドキュメントの「Channels」を参照してください。

注記

以前のバージョンの SMP ライブラリ v1.x や、事前にパッケージ化された DLC を調べるには、SMP v1 ドキュメントの「サポートされるフレームワーク」を参照してください。

オープンソースライブラリで SMP v2 を使用する

SMP v2 ライブラリは、PyTorch FSDP の API に対応しているため、PyTorch Lightning、Hugging Face Transformers、Hugging Face Accelerate など、他の PyTorch ベースのオープンソースライブラリと連携します。他のサードパーティーライブラリと併せて SMP ライブラリを使用する方法についてさらに質問がある場合は、SMP サービスチーム (sm-model-parallel-feedback@amazon.com) にお問い合わせください。

AWS リージョン

SMP v2 は以下から入手できます AWS リージョン。SMP Docker イメージの URI または SMP Conda チャネルを使用する場合は、次のリストからご利用になる AWS リージョンに一致するものを見つけ、それに応じてイメージ URI またはチャネル URL を更新してください。

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

サポートされるインスタンスタイプ

SMP v2 には、次のいずれかの ML インスタンスタイプが必要です。

インスタンスタイプ
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

ヒント

PyTorch v2.2.0 以降に対応した SMP v2.2.0 以降では、P5 インスタンスでの Transformer Engine を使用した FP8 混合精度トレーニングを利用できます。

SageMaker 機械学習インスタンスタイプ全般の仕様については、「Amazon EC2 インスタンスタイプ」ページの「高速コンピューティング」セクションを参照してください。インスタンスの料金の詳細については、Amazon SageMakerの料金」を参照してください。

次のようなエラーメッセージが表示された場合は、「AWS Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従ってください。


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデル並列処理の概念

SMP v2 の使用