翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS インフラストラクチャに最適化されたSMDDPライブラリとの互換性
SageMaker モデル並列処理ライブラリ v2 (SMP v2) は、 AWS インフラストラクチャに最適化されたAllGather
一括通信オペレーションを提供するSageMaker 分散データ並列処理 (SMDDP) ライブラリと組み合わせて使用できます。分散トレーニングでは、集合通信オペレーションは、複数のGPUワーカーを同期し、それらのワーカー間で情報を交換するように設計されています。 AllGather
は、シャードデータ並列処理で通常使用されるコア集合通信オペレーションの 1 つです。SMDDP AllGather
オペレーションの詳細については、「このような集合的なコミュニケーションオペレーションSMDDP AllGather集合演算の最適化」を参照してください。収束に副作用が及ぶことなく、トレーニングを高速化 end-to-endできます。
注記
SMDDP ライブラリは P4 インスタンスと P4de インスタンスをサポートします (SMDDPライブラリサポートされているフレームワーク AWS リージョン、およびインスタンスタイプの も参照)。
SMDDP ライブラリは、プロセスグループ
AllGather
オペレーションをアクティブ化SMDDPして使用するには、 の一部としてトレーニングスクリプトに 2 行のコードを追加する必要がありますステップ 1: トレーニングスクリプトを調整する PyTorch FSDP 。最初にSMDDPバックエンドで PyTorch 分散を初期化してから、SMP初期化を実行する必要があります。
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
SageMaker のフレームワークコンテナ