翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
サポートされるフレームワークと AWS リージョン
SageMaker モデル並列処理ライブラリ v2 (SMP v2) を使用する前に、サポートされているフレームワークとインスタンスタイプを確認し、 AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。
注記
ライブラリの最新の更新情報とリリースノートを確認するには、「SageMaker モデル並列処理ライブラリのリリースノート」を参照してください。
サポートされるフレームワーク
SMP v2 は、次の深層学習フレームワークをサポートしており、SMP Docker コンテナと SMP Conda チャネルを介して使用できます。SageMaker Python SDK でフレームワーク推定器クラスを使用し、SMP v2 を使用するディストリビューション設定を指定すると、SageMaker AI は自動的に SMP Docker コンテナを取得します。SMP v2 を使用するには、開発環境で SageMaker Python SDK を常に最新の状態に保つことをお勧めします。
SageMaker モデル並列処理ライブラリでサポートされている PyTorch バージョン
PyTorch バージョン | SageMaker モデル並列処理ライブラリバージョン | SMP Docker イメージの URI | SMP Enroot イメージ URI |
---|---|---|---|
v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
該当なし | ||
smdistributed-modelparallel==v2.6.0 |
該当なし | ||
v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
該当なし |
smdistributed-modelparallel==v2.4.0 |
|||
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
該当なし |
smdistributed-modelparallel==v2.2.0 |
|||
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
該当なし |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
該当なし |
SMP Conda チャネル
次の Amazon S3 バケットは、SMP サービスチームがホストするパブリック Conda チャネルです。SageMaker HyperPod クラスターなどの環境に SMP v2 ライブラリをインストールする場合は、この Conda チャネルを使用して正しく SMP ライブラリをインストールしてください。
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
Conda チャネル全般の詳細については、Conda のドキュメントの「Channels
注記
以前のバージョンの SMP ライブラリ v1.x や、事前にパッケージ化された DLC を調べるには、SMP v1 ドキュメントの「サポートされるフレームワーク」を参照してください。
オープンソースライブラリで SMP v2 を使用する
SMP v2 ライブラリは、PyTorch FSDP の API に対応しているため、PyTorch Lightning、Hugging Face Transformers、Hugging Face Accelerate など、他の PyTorch ベースのオープンソースライブラリと連携します。他のサードパーティーライブラリと併せて SMP ライブラリを使用する方法についてさらに質問がある場合は、SMP サービスチーム (sm-model-parallel-feedback@amazon.com
) にお問い合わせください。
AWS リージョン
SMP v2 は以下から入手できます AWS リージョン。SMP Docker イメージの URI または SMP Conda チャネルを使用する場合は、次のリストからご利用になる AWS リージョン に一致するものを見つけ、それに応じてイメージ URI またはチャネル URL を更新してください。
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
サポートされるインスタンスタイプ
SMP v2 には、次のいずれかの ML インスタンスタイプが必要です。
インスタンスタイプ |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
ヒント
PyTorch v2.2.0 以降に対応した SMP v2.2.0 以降では、P5 インスタンスでの Transformer Engine を使用した FP8 混合精度トレーニング を利用できます。
SageMaker 機械学習インスタンスタイプ全般の仕様については、「Amazon EC2 インスタンスタイプ
次のようなエラーメッセージが表示された場合は、「AWS Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従ってください。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.