與優化的SMDDP庫的兼容性 AWS 基礎設施 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

與優化的SMDDP庫的兼容性 AWS 基礎設施

您可以將 SageMaker 模型平行程度程式庫 v2 (SMPv2) 與SageMaker 分散式資料平行處理原則 (SMDDP) 程式庫搭配使用,該程式庫可提供最佳化的AllGather集體通訊作業 AWS 基礎設施。在分散式訓練中,集體通訊作業是專為同步處理多位GPU員工並在他們之間交換資訊而設計的。 AllGather是通常用於分片數據並行性的核心集體通信操作之一。若要瞭解有關SMDDPAllGather操作的更多資訊,請參閱SMDDP AllGather 集體運作最佳化此類集體通訊作業將直接促進更快的 end-to-end 訓練,而不會對收斂造成副作用。

注意

該SMDDP庫支持 P4 和 P4dE 實例(另支援的架構 AWS 區域、和執行個體類型請參閱庫)。SMDDP

該SMDDP庫 PyTorch 通過過程組層本地集成。若要使用程式SMDDP庫,您只需要在訓練指令碼中加入兩行程式碼即可。它支持任何培訓框架,例如 SageMaker 模型並行庫 PyTorch FSDP,和 DeepSpeed.

若要啟用SMDDP並使用其AllGather作業,您需要將兩行程式碼新增至訓練指令碼,做為其中的一部分第 1 步:調整您的 PyTorch FSDP 培訓腳本。請注意,您需要先使用SMDDP後端初始化 PyTorch 分佈式,然後運行SMP初始化。

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker 的框架容器 PyTorch (另支援的架構與 AWS 區域請參閱 SMP v2 和支援的架構 AWS 區域、和執行個體類型SMDDP庫)與SMP二進製文件和二進製文件一起預包裝。SMDDP若要進一步瞭解資SMDDP源庫,請參閱使用分散式資料平行程式庫執行 SageMaker 分散式訓練