Führen Sie verteilte Schulungen mit der Bibliothek für SageMaker verteilte Datenparallelität durch - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Führen Sie verteilte Schulungen mit der Bibliothek für SageMaker verteilte Datenparallelität durch

Die Bibliothek für SageMaker verteilte Datenparallelität (SMDDP) erweitert die SageMaker Trainingsmöglichkeiten für Deep-Learning-Modelle mit nahezu linearer Skalierungseffizienz, indem sie Implementierungen von kollektiven Kommunikationsoperationen bereitstellt, die für die Infrastruktur optimiert sind. AWS

Beim Training großer Modelle für maschinelles Lernen (ML), wie z. B. Large Language Models (LLM) und Diffusionsmodelle, auf einem riesigen Trainingsdatensatz verwenden ML-Praktiker Cluster von Beschleunigern und verteilte Trainingstechniken, um die Zeit für das Training zu reduzieren oder Speicherbeschränkungen für Modelle zu lösen, die nicht in jeden GPU-Speicher passen. ML-Praktiker beginnen häufig mit mehreren Beschleunigern auf einer einzigen Instanz und skalieren dann auf Cluster von Instanzen, wenn ihre Arbeitslastanforderungen steigen. Mit zunehmender Clustergröße nimmt auch der Kommunikationsaufwand zwischen mehreren Knoten zu, was zu einem Rückgang der gesamten Rechenleistung führt.

Um solchen Overhead- und Speicherproblemen zu begegnen, bietet die SMDDP-Bibliothek Folgendes.

  • Die SMDDP-Bibliothek optimiert Trainingsaufgaben für die AWS Netzwerkinfrastruktur und die Amazon SageMaker ML-Instance-Topologie.

  • Die SMDDP-Bibliothek verbessert die Kommunikation zwischen Knoten durch Implementierungen AllReduce und AllGather kollektive Kommunikationsoperationen, die für die Infrastruktur optimiert sind. AWS

Weitere Informationen zu den Angeboten der SMDDP-Bibliothek finden Sie unter. Einführung in die Bibliothek für SageMaker verteilte Datenparallelität

Weitere Informationen zum Training mit der von angebotenen modellparallelen Strategie finden Sie SageMaker auch unter. (Archivierte) SageMaker Modellparallelismus-Bibliothek v1.x