本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
與優化的SMDDP庫的兼容性 AWS 基礎設施
您可以將 SageMaker 模型平行程度程式庫 v2 (SMPv2) 與SageMaker 分散式資料平行處理原則 (SMDDP) 程式庫搭配使用,該程式庫可提供最佳化的AllGather
集體通訊作業 AWS 基礎設施。在分散式訓練中,集體通訊作業是專為同步處理多位GPU員工並在他們之間交換資訊而設計的。 AllGather
是通常用於分片數據並行性的核心集體通信操作之一。若要瞭解有關SMDDPAllGather
操作的更多資訊,請參閱SMDDP AllGather 集體運作最佳化此類集體通訊作業將直接促進更快的 end-to-end 訓練,而不會對收斂造成副作用。
注意
該SMDDP庫支持 P4 和 P4dE 實例(另支援的架構 AWS 區域、和執行個體類型請參閱庫)。SMDDP
該SMDDP庫 PyTorch 通過過程組層本地集
若要啟用SMDDP並使用其AllGather
作業,您需要將兩行程式碼新增至訓練指令碼,做為其中的一部分第 1 步:調整您的 PyTorch FSDP 培訓腳本。請注意,您需要先使用SMDDP後端初始化 PyTorch 分佈式,然後運行SMP初始化。
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
SageMaker 的框架容器