サポートされるフレームワークと AWS リージョン - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされるフレームワークと AWS リージョン

SageMaker モデル並列処理ライブラリ v2 (SMP v2) を使用する前に、サポートされているフレームワークとインスタンスタイプを確認し、 AWS アカウントと に十分なクォータがあるかどうかを確認します AWS リージョン。

注記

ライブラリの最新の更新情報とリリースノートを確認するには、「SageMaker モデル並列処理ライブラリのリリースノート」を参照してください。

サポートされるフレームワーク

SMP v2 は、次の深層学習フレームワークをサポートしており、SMP Docker コンテナと SMP Conda チャネルを介して使用できます。SageMaker Python SDK でフレームワーク推定器クラスを使用し、SMP v2 を使用するディストリビューション設定を指定すると、SageMaker AI は自動的に SMP Docker コンテナを取得します。SMP v2 を使用するには、開発環境で SageMaker Python SDK を常に最新の状態に保つことをお勧めします。

SageMaker モデル並列処理ライブラリでサポートされている PyTorch バージョン

PyTorch バージョン SageMaker モデル並列処理ライブラリバージョン SMP Docker イメージの URI SMP Enroot イメージ URI
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 該当なし
smdistributed-modelparallel==v2.6.0 該当なし
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 該当なし
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 該当なし
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 該当なし
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 該当なし

SMP Conda チャネル

次の Amazon S3 バケットは、SMP サービスチームがホストするパブリック Conda チャネルです。SageMaker HyperPod クラスターなどの環境に SMP v2 ライブラリをインストールする場合は、この Conda チャネルを使用して正しく SMP ライブラリをインストールしてください。

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Conda チャネル全般の詳細については、Conda のドキュメントの「Channels」を参照してください。

注記

以前のバージョンの SMP ライブラリ v1.x や、事前にパッケージ化された DLC を調べるには、SMP v1 ドキュメントの「サポートされるフレームワーク」を参照してください。

オープンソースライブラリで SMP v2 を使用する

SMP v2 ライブラリは、PyTorch FSDP の API に対応しているため、PyTorch Lightning、Hugging Face Transformers、Hugging Face Accelerate など、他の PyTorch ベースのオープンソースライブラリと連携します。他のサードパーティーライブラリと併せて SMP ライブラリを使用する方法についてさらに質問がある場合は、SMP サービスチーム (sm-model-parallel-feedback@amazon.com) にお問い合わせください。

AWS リージョン

SMP v2 は以下から入手できます AWS リージョン。SMP Docker イメージの URI または SMP Conda チャネルを使用する場合は、次のリストからご利用になる AWS リージョン に一致するものを見つけ、それに応じてイメージ URI またはチャネル URL を更新してください。

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

サポートされるインスタンスタイプ

SMP v2 には、次のいずれかの ML インスタンスタイプが必要です。

インスタンスタイプ
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
ヒント

PyTorch v2.2.0 以降に対応した SMP v2.2.0 以降では、P5 インスタンスでの Transformer Engine を使用した FP8 混合精度トレーニング を利用できます。

SageMaker 機械学習インスタンスタイプ全般の仕様については、「Amazon EC2 インスタンスタイプ」ページの「高速コンピューティング」セクションを参照してください。インスタンスの料金の詳細については、Amazon SageMakerの料金」を参照してください。

次のようなエラーメッセージが表示された場合は、「AWS Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従ってください。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.