Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

PyTorch トレーニングスクリプトで SMDDP ライブラリを使用する

フォーカスモード
PyTorch トレーニングスクリプトで SMDDP ライブラリを使用する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker AI 分散データ並列処理 (SMDDP) ライブラリ v1.4.0 以降では、PyTorch 分散パッケージのバックエンドオプションとしてライブラリを使用できます。SMDDP の AllReduce および AllGather 集合演算を使用するには、トレーニングスクリプトの冒頭で SMDDP ライブラリをインポートし、プロセスグループの初期化中に SMDDP を PyTorch 分散モジュールのバックエンドとして設定するだけで済みます。1 行でバックエンドを指定するだけで、ネイティブの PyTorch 分散モジュールはすべてそのまま残すことができ、トレーニングスクリプト全体を変更する必要はありません。次のコードスニペットは、PyTorch ベースの分散トレーニングパッケージ (PyTorch Distributed Data Parallel (DDP)PyTorch Fully Sharded Data Parallelism (FSDP)DeepSpeedMegatron-DeepSpeed) のバックエンドとして SMDDP ライブラリを使用する方法を示しています。

PyTorch DDP または FSDP の場合

プロセスグループを次のように初期化します。

import torch.distributed as dist import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp")
注記

(PyTorch DDP ジョブのみ) smddp バックエンドは、現時点では、torch.distributed.new_group() API によるサブプロセスグループの作成には対応していません。smddp バックエンドは、NCCLGloo などの他のプロセスグループバックエンドと同時に使用することはできません。

DeepSpeed または Megatron-DeepSpeed の場合

プロセスグループを次のように初期化します。

import deepspeed import smdistributed.dataparallel.torch.torch_smddp deepspeed.init_distributed(dist_backend="smddp")
注記

SMDDP の AllGatherSageMaker Python SDK を使用して SMDDP で分散トレーニングジョブを開始するmpirun ベースのランチャー (smdistributedpytorchddp) で使用するには、トレーニングスクリプトで次の環境変数を設定する必要があります。

export SMDATAPARALLEL_OPTIMIZE_SDP=true

PyTorch FSDP トレーニングスクリプトの記述に関する一般的なガイダンスについては、PyTorch ドキュメントの「Advanced Model Training with Fully Sharded Data Parallel (FSDP)」を参照してください。

PyTorch DDP トレーニングスクリプトの記述に関する一般的なガイダンスについては、PyTorch ドキュメントの「Getting started with distributed data parallel」を参照してください。

トレーニングスクリプトの調整が完了したら、SageMaker Python SDK を使用して SMDDP で分散トレーニングジョブを開始する に進みます。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.