Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Compatibilità con la SMDDP libreria ottimizzata per l'infrastruttura AWS
È possibile utilizzare la libreria di parallelismo dei SageMaker modelli v2 (SMPv2) insieme alla libreria SageMaker Distributed Data Parallelism (SMDDP) che offre operazioni di comunicazione collettiva ottimizzate per l'AllGather
infrastruttura. AWS Nella formazione distribuita, le operazioni di comunicazione collettiva sono progettate per sincronizzare più lavoratori e scambiare informazioni tra di loro. GPU AllGather
è una delle principali operazioni di comunicazione collettiva tipicamente utilizzate nel parallelismo di dati condivisi. Per ulteriori informazioni sull'SMDDPAllGather
operazione, vedere L'Operazione AllGather collettiva SMDDPottimizzazione di tali operazioni di comunicazione collettiva contribuirebbe direttamente a una end-to-end formazione più rapida senza effetti collaterali sulla convergenza.
Nota
La SMDDP libreria supporta istanze P4 e P4de (vedi anche accanto alla libreria). Framework e tipi di Regioni AWS istanze supportati SMDDP
La SMDDP libreria si integra nativamente con PyTorch il livello del gruppo di processi.
Per attivarne SMDDP e utilizzarne il AllGather
funzionamento, è necessario aggiungere due righe di codice allo script di addestramento come parte di. Fase 1: Adatta lo script PyTorch FSDP di allenamento Tieni presente che devi prima inizializzare PyTorch Distributed con il SMDDP backend, quindi eseguire l'SMPinizializzazione.
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
SageMaker I Framework Containers