AWS インフラストラクチャに最適化されたSMDDPライブラリとの互換性

SageMaker モデル並列処理ライブラリ v2 (SMP v2) は、 AWS インフラストラクチャに最適化されたAllGather一括通信オペレーションを提供するSageMaker 分散データ並列処理 (SMDDP) ライブラリと組み合わせて使用できます。分散トレーニングでは、集合通信オペレーションは、複数のGPUワーカーを同期し、それらのワーカー間で情報を交換するように設計されています。 AllGather は、シャードデータ並列処理で通常使用されるコア集合通信オペレーションの 1 つです。SMDDP AllGather オペレーションの詳細については、「このような集合的なコミュニケーションオペレーションSMDDP AllGather集合演算の最適化」を参照してください。収束に副作用が及ぶことなく、トレーニングを高速化 end-to-endできます。

注記

SMDDP ライブラリは P4 インスタンスと P4de インスタンスをサポートします (SMDDPライブラリサポートされているフレームワーク AWS リージョン、およびインスタンスタイプのも参照）。

SMDDP ライブラリは、プロセスグループレイヤー PyTorch を介してとネイティブに統合されます。SMDDP ライブラリを使用するには、トレーニングスクリプトに 2 行のコードを追加するだけです。Model SageMaker Parallelism Library、、などのトレーニングフレームワークをサポートしています PyTorch FSDP DeepSpeed。

AllGather オペレーションをアクティブ化SMDDPして使用するには、の一部としてトレーニングスクリプトに 2 行のコードを追加する必要がありますステップ 1: トレーニングスクリプトを調整する PyTorch FSDP 。最初にSMDDPバックエンドで PyTorch 分散を初期化してから、SMP初期化を実行する必要があります。


import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()

SageMaker のフレームワークコンテナ PyTorch (v2 SMP サポートされているフレームワーク AWS リージョン、およびインスタンスタイプおよび SMDDPライブラリサポートされるフレームワークと AWS リージョンでも参照) は、SMPバイナリと SMDDP バイナリで事前にパッケージ化されています。SMDDP ライブラリの詳細については、「」を参照してください SageMaker 分散データ並列処理ライブラリによる分散トレーニングの実行。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コンテキスト並列処理

混合精度トレーニング