Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
La libreria SageMaker AI Distributed Data Parallelism (SMDDP) estende le funzionalità di SageMaker formazione sui modelli di deep learning con un'efficienza di scalabilità quasi lineare fornendo implementazioni di operazioni di comunicazione collettiva ottimizzate per l'infrastruttura. AWS
Quando si addestrano modelli di machine learning (ML) di grandi dimensioni, come modelli di linguaggio di grandi dimensioni (LLM) e modelli di diffusione, su un enorme set di dati di addestramento, i professionisti del machine learning utilizzano cluster di acceleratori e tecniche di formazione distribuite per ridurre i tempi di addestramento o risolvere i vincoli di memoria per i modelli che non possono entrare in ogni memoria GPU. I professionisti del machine learning spesso iniziano con più acceleratori su una singola istanza e poi passano a cluster di istanze man mano che aumentano i requisiti del carico di lavoro. Con l'aumentare delle dimensioni del cluster, aumenta anche il sovraccarico di comunicazione tra più nodi, il che porta a un calo delle prestazioni computazionali complessive.
Per risolvere tali problemi di sovraccarico e di memoria, la libreria SMDDP offre quanto segue.
-
La libreria SMDDP ottimizza i lavori di formazione per l'infrastruttura di AWS rete e la topologia delle istanze Amazon SageMaker AI ML.
-
La libreria SMDDP migliora la comunicazione tra i nodi con implementazioni
AllReduce
e operazioni di comunicazioneAllGather
collettiva ottimizzate per l'infrastruttura. AWS
Per ulteriori informazioni sui dettagli delle offerte della libreria SMDDP, consulta. Introduzione alla libreria di parallelismo dei dati distribuiti per l' SageMaker intelligenza artificiale
Per ulteriori informazioni sulla formazione con la strategia parallela a modelli offerta dall' SageMaker IA, consulta anche. Libreria di parallelismo dei SageMaker modelli (archiviata) v1.x
Argomenti
Formazione distribuita con la libreria di parallelismo dei dati distribuiti SageMaker AI
Esempi di librerie di parallelismo dei dati di Amazon SageMaker AI
Suggerimenti di configurazione per la libreria di parallelismo dei dati distribuiti SageMaker AI
Domande frequenti sulla libreria di parallelismo dei dati distribuiti Amazon SageMaker AI
Risoluzione dei problemi relativi alla formazione distribuita in Amazon SageMaker AI
SageMaker Note di rilascio della libreria di parallelismo dei dati AI