Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Führen Sie verteilte Schulungen mit der Bibliothek für SageMaker verteilte Datenparallelität durch
Die Bibliothek für SageMaker verteilte Datenparallelität (SMDDP) erweitert die SageMaker Trainingsmöglichkeiten für Deep-Learning-Modelle mit nahezu linearer Skalierungseffizienz, indem sie Implementierungen von kollektiven Kommunikationsoperationen bereitstellt, die für die Infrastruktur optimiert sind. AWS
Beim Training großer Modelle für maschinelles Lernen (ML), wie z. B. Large Language Models (LLM) und Diffusionsmodelle, auf einem riesigen Trainingsdatensatz verwenden ML-Praktiker Cluster von Beschleunigern und verteilte Trainingstechniken, um die Zeit für das Training zu reduzieren oder Speicherbeschränkungen für Modelle zu lösen, die nicht in jeden GPU-Speicher passen. ML-Praktiker beginnen häufig mit mehreren Beschleunigern auf einer einzigen Instanz und skalieren dann auf Cluster von Instanzen, wenn ihre Arbeitslastanforderungen steigen. Mit zunehmender Clustergröße nimmt auch der Kommunikationsaufwand zwischen mehreren Knoten zu, was zu einem Rückgang der gesamten Rechenleistung führt.
Um solchen Overhead- und Speicherproblemen zu begegnen, bietet die SMDDP-Bibliothek Folgendes.
-
Die SMDDP-Bibliothek optimiert Trainingsaufgaben für die AWS Netzwerkinfrastruktur und die Amazon SageMaker ML-Instance-Topologie.
-
Die SMDDP-Bibliothek verbessert die Kommunikation zwischen Knoten durch Implementierungen
AllReduce
undAllGather
kollektive Kommunikationsoperationen, die für die Infrastruktur optimiert sind. AWS
Weitere Informationen zu den Angeboten der SMDDP-Bibliothek finden Sie unter. Einführung in die Bibliothek für SageMaker verteilte Datenparallelität
Weitere Informationen zum Training mit der von angebotenen modellparallelen Strategie finden Sie SageMaker auch unter. (Archivierte) SageMaker Modellparallelismus-Bibliothek v1.x
Themen
- Einführung in die Bibliothek für SageMaker verteilte Datenparallelität
- Unterstützte Frameworks AWS-Regionen und Instanztypen
- Verteiltes Training mit der Bibliothek für SageMaker verteilte Datenparallelität
- Beispiele für SageMaker die Amazon-Datenparallelismus-Bibliothek
- Konfigurationstipps für die Bibliothek für SageMaker verteilte Datenparallelität
- Häufig gestellte Fragen zur Amazon-Bibliothek für SageMaker verteilte Datenparallelität
- Fehlerbehebung für verteiltes Training in Amazon SageMaker
- SageMaker Versionshinweise zur Datenparallelitätsbibliothek