Compatibilità con la SMDDP libreria ottimizzata per l'infrastruttura AWS - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Compatibilità con la SMDDP libreria ottimizzata per l'infrastruttura AWS

È possibile utilizzare la libreria di parallelismo dei SageMaker modelli v2 (SMPv2) insieme alla libreria SageMaker Distributed Data Parallelism (SMDDP) che offre operazioni di comunicazione collettiva ottimizzate per l'AllGatherinfrastruttura. AWS Nella formazione distribuita, le operazioni di comunicazione collettiva sono progettate per sincronizzare più lavoratori e scambiare informazioni tra di loro. GPU AllGatherè una delle principali operazioni di comunicazione collettiva tipicamente utilizzate nel parallelismo di dati condivisi. Per ulteriori informazioni sull'SMDDPAllGatheroperazione, vedere L'Operazione AllGather collettiva SMDDPottimizzazione di tali operazioni di comunicazione collettiva contribuirebbe direttamente a una end-to-end formazione più rapida senza effetti collaterali sulla convergenza.

Nota

La SMDDP libreria supporta istanze P4 e P4de (vedi anche accanto alla libreria). Framework e tipi di Regioni AWS istanze supportati SMDDP

La SMDDP libreria si integra nativamente con PyTorch il livello del gruppo di processi. Per utilizzare la SMDDP libreria, è sufficiente aggiungere due righe di codice allo script di addestramento. Supporta qualsiasi framework di formazione come SageMaker Model Parallelism Library e. PyTorch FSDP DeepSpeed

Per attivarne SMDDP e utilizzarne il AllGather funzionamento, è necessario aggiungere due righe di codice allo script di addestramento come parte di. Fase 1: Adatta lo script PyTorch FSDP di allenamento Tieni presente che devi prima inizializzare PyTorch Distributed con il SMDDP backend, quindi eseguire l'SMPinizializzazione.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker I Framework Containers for PyTorch (vedi anche Framework supportati e Regioni AWS by SMP v2 e Framework e tipi di Regioni AWS istanze supportati by the SMDDP library) sono preconfezionati con il binario e il binario. SMP SMDDP Per ulteriori informazioni sulla SMDDP libreria, consulta. Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati SageMaker distribuiti