Verteilte Schulungen bei Amazon SageMaker

SageMaker bietet verteilte Schulungsbibliotheken und unterstützt verschiedene verteilte Schulungsoptionen für Deep-Learning-Aufgaben wie Computer Vision (CV) und Verarbeitung natürlicher Sprache (NLP). Mit SageMaker den verteilten Trainingsbibliotheken können Sie hochgradig skalierbare und kostengünstige benutzerdefinierte Daten parallel ausführen und parallele Deep-Learning-Trainingsjobs modellieren. Sie können auch andere verteilte Trainingsframeworks und Pakete wie PyTorch DistributedDataParallel (DDP)torchrun, MPI (mpirun) und Parameterserver verwenden. Der folgende Abschnitt enthält Informationen zu grundlegenden Konzepten für verteilte Schulungen. In der gesamten Dokumentation konzentrieren sich Anleitungen und Beispiele darauf, wie die verteilten Trainingsoptionen für Deep-Learning-Aufgaben mithilfe von SageMaker Python eingerichtet SDK werden.

Tipp

Bewährte Methoden für verteiltes Rechnen für Training und Verarbeitung von Machine Learning (ML) im Allgemeinen finden Sie unter Verteilte Datenverarbeitung mit SageMaker bewährten Methoden.

Verteilte Trainingskonzepte

SageMakerIn den verteilten Schulungsbibliotheken werden die folgenden Begriffe und Funktionen für verteilte Schulungen verwendet.

Datensätze und Batches

Trainingsdatensatz: Alle Daten, die Sie zum Trainieren des Modells verwenden.
Globale Batchgröße: Die Anzahl der Datensätze, die in jeder Iteration aus dem Trainingsdatensatz ausgewählt wurden, um sie an den GPUs im Cluster zu senden. Dies ist die Anzahl der Datensätze, über die die Steigung bei jeder Iteration berechnet wird. Wenn Datenparallelität verwendet wird, entspricht sie der Gesamtzahl der Modellreplikate multipliziert mit der Batch-Größe pro Replikat: global batch size = (the number of model replicas) * (per-replica batch size). Eine einzelner Batch mit globaler Batch-Größe wird in der Fachliteratur zum Machine Learning oft als Mini-Batch bezeichnet.
Batch-Größe pro Replikat: Wenn Datenparallelität verwendet wird, ist dies die Anzahl der Datensätze, die an jedes Modellreplikat gesendet werden. Jedes Modellreplikat führt mit diesem Batch einen Vorwärts- und Rückwärtsdurchlauf durch, um Gewichtungsaktualisierungen zu berechnen. Die resultierenden Gewichtungsaktualisierungen werden für alle Replikate synchronisiert (gemittelt), bevor der nächste Satz von Pro-Replikat-Batches verarbeitet wird.
Mikro-Batch: Eine Teilmenge des Mini-Batch oder, wenn Hybridmodell und Datenparallelität verwendet werden, eine Teilmenge des Batches mit Größe pro Replikat. Wenn Sie die Bibliothek für verteilte Modellparallelität verwenden SageMaker, wird jeder Mikrobatch in die Trainingspipeline eingespeist one-by-one und folgt einem Ausführungsplan, der durch die Laufzeit der Bibliothek definiert wird.

Training

Epoche: Ein Trainingszyklus durch den gesamten Datensatz. Es ist üblich, mehrere Iterationen pro Epoche durchzuführen. Die Anzahl der Epochen, die Sie beim Training verwenden, hängt von Ihrem Modell und Anwendungsfall ab.
Iteration: Ein einziger Vorwärts- und Rückwärtsdurchlauf, der mit einem globalen Batch (einem Mini-Batch) von Trainingsdaten durchgeführt wird. Die Anzahl der während des Trainings durchgeführten Iterationen wird durch die globale Batchgröße und die Anzahl der für das Training verwendeten Epochen bestimmt. Wenn ein Datensatz beispielsweise 5.000 Beispiel umfasst und Sie eine globale Batch-Größe von 500 verwenden, dauert es 10 Iterationen, bis eine einzelne Epoche abgeschlossen ist.
Lernrate: Eine Variable, die beeinflusst, wie stark Gewichtungen als Reaktion auf den berechneten Fehler des Modells geändert werden. Die Lernrate spielt eine wichtige Rolle bei der Konvergenzfähigkeit des Modells sowie der Geschwindigkeit und Optimalität der Konvergenz.

Instanzen und GPUs

Instanzen: Eine Recheninstanz für AWS maschinelles Lernen. Diese werden auch als Knoten bezeichnet.
Clustergröße: Bei Verwendung SageMaker der verteilten Trainingsbibliothek ist dies die Anzahl der Instanzen multipliziert mit der Anzahl der Instanzen GPUs in jeder Instanz. Wenn Sie beispielsweise zwei ml.p3.8xlarge-Instances in einem Trainingsjob verwenden, die GPUs jeweils 4 haben, beträgt die Clustergröße 8. Eine Erhöhung der Cluster-Größe kann zwar zu schnelleren Trainingszeiten führen, die Kommunikation zwischen den Instances muss jedoch optimiert werden. Andernfalls kann die Kommunikation zwischen den Knoten einen zusätzlichen Aufwand verursachen und zu langsameren Trainingszeiten führen. Die SageMaker verteilte Trainingsbibliothek wurde entwickelt, um die Kommunikation zwischen Amazon EC2 ML-Recheninstanzen zu optimieren, was zu einer höheren Gerätenutzung und schnelleren Trainingszeiten führt.

Lösungen für verteilte Trainings

Datenparallelität: Eine Strategie für verteiltes Training, bei der ein Trainingsdatensatz auf mehrere GPUs in einem Rechencluster, der aus mehreren Amazon EC2 ML-Instances besteht, aufgeteilt wird. Jedes Modell GPU enthält ein Replikat des Modells, empfängt unterschiedliche Stapel von Trainingsdaten, führt einen Vorwärts- und Rückwärtslauf durch und teilt Gewichtsupdates zur Synchronisation mit den anderen Knoten, bevor zum nächsten Stapel und letztendlich zu einer anderen Epoche übergegangen wird.
Modellparallelität: Eine Strategie für verteiltes Training, bei der das Modell auf mehrere GPUs in einem Rechencluster aufgeteilt ist, der aus mehreren Amazon EC2 ML-Instances besteht. Das Modell kann komplex sein und eine große Anzahl von versteckten Ebenen und Gewichtungen aufweisen, sodass es nicht in den Speicher einer einzelnen Instance passt. Jedes Modell GPU enthält eine Teilmenge des Modells, über die die Datenflüsse und Transformationen gemeinsam genutzt und kompiliert werden. Die Effizienz der Modellparallelität in Bezug auf GPU Nutzung und Trainingszeit hängt stark davon ab, wie das Modell partitioniert ist und welcher Ausführungsplan für die Durchführung von Vorwärts- und Rückwärtsdurchläufen verwendet wird.
Pipeline-Ausführungsplan (Pipelining): Der Pipeline-Ausführungsplan bestimmt die Reihenfolge, in der Berechnungen (Mikro-Batches) durchgeführt und Daten während des Modelltrainings geräteübergreifend verarbeitet werden. Pipelining ist eine Technik, um eine echte Parallelisierung der Modellparallelität zu erreichen und den Leistungsverlust aufgrund sequentieller Berechnungen zu überwinden, indem die Berechnungen gleichzeitig für verschiedene Datenproben durchgeführt werden. GPUs Weitere Informationen finden Sie unter Pipeline-Ausführungsplan.

Fortgeschrittene Konzepte

Praktiker des Machine Learning (ML) stehen beim Trainieren von Modellen häufig vor zwei Skalierungsherausforderungen: Skalierung der Modellgröße und Skalierung von Trainingsdaten. Modellgröße und Komplexität können zwar zu einer besseren Genauigkeit führen, es gibt jedoch eine Grenze für die Modellgröße, die Sie in ein einzelnes CPU oder einfügen könnenGPU. Darüber hinaus kann die Skalierung der Modellgröße zu mehr Berechnungen und längeren Trainingszeiten führen.

Nicht alle Modelle können mit der Skalierung von Trainingsdaten gleich gut umgehen, da sie für das Training alle Trainingsdaten im Speicher aufnehmen müssen. Sie skalieren nur vertikal und auf immer größere Instance-Typen. In den meisten Fällen führt die Skalierung von Trainingsdaten zu längeren Trainingszeiten.

Deep Learning (DL) ist eine spezielle Familie von ML-Algorithmen, die aus mehreren Ebenen künstlicher neuronaler Netze besteht. Die gängigste Trainingsmethode ist Stochastic Gradient Descent () im Mini-Batch-Modus. SGD Beim SGD Mini-Batch-Verfahren wird das Modell trainiert, indem kleine iterative Änderungen seiner Koeffizienten in die Richtung vorgenommen werden, die seinen Fehler reduziert. Diese Iterationen werden an gleich großen Teilproben des Trainingsdatensatzes durchgeführt, die als Mini-Batches bezeichnet werden. Für jeden Mini-Batch wird das Modell in jedem Datensatz des Mini-Batches ausgeführt, wobei der Fehler gemessen und die Steigung des Fehlers geschätzt wird. Anschließend wird die durchschnittliche Steigung in allen Datensätzen des Mini-Batches gemessen und gibt eine Aktualisierungsrichtung für jeden Modellkoeffizienten vor. Ein vollständiger Durchlauf des Trainingsdatensatzes wird als Epoche bezeichnet. Modelltrainings bestehen üblicherweise aus Dutzenden bis Hunderten von Epochen. Mini-Batch SGD hat mehrere Vorteile: Erstens sorgt sein iteratives Design dafür, dass die Trainingszeit theoretisch linear zur Datensatzgröße verläuft. Zweitens wird in einem bestimmten Mini-Batch jeder Datensatz einzeln vom Modell verarbeitet, ohne dass außer dem endgültigen Steigungsdurchschnitt eine Kommunikation zwischen den Datensätzen erforderlich ist. Die Verarbeitung eines Mini-Batches eignet sich daher besonders für die Parallelisierung und Verteilung.

Die Parallelisierung des SGD Trainings durch Verteilung der Datensätze eines Mini-Batches auf verschiedene Computergeräte wird als datenparalleles verteiltes Training bezeichnet und ist das am häufigsten verwendete DL-Verteilungsparadigma. Datenparalleles Training ist eine wichtige Verteilungsstrategie, um die Größe der Mini-Batches zu skalieren und jeden Mini-Batch schneller zu verarbeiten. Datenparalleles Training bringt jedoch die zusätzliche Komplexität mit sich, dass der Steigungsdurchschnitt für Mini-Batches mit Steigungen von allen Auftragnehmern berechnet und an alle Auftragnehmer weitergegeben werden muss. Dieser Schritt wird allreduce genannt und kann einen wachsenden Mehraufwand bedeuten, da der Trainingscluster skaliert wird, was auch die Trainingszeit drastisch beeinträchtigen kann, wenn er falsch implementiert oder über unsachgemäße Hardware-Subtraktionen implementiert wird.

Datenparallele Daten erfordern SGD immer noch, dass Entwickler in der Lage sind, mindestens das Modell und einen einzelnen Datensatz in ein Computergerät einzupassen, z. B. ein einzelnes CPU oderGPU. Beim Training sehr großer Modelle, wie z. B. großer Transformatoren in der Verarbeitung natürlicher Sprache (NLP) oder Segmentierungsmodellen für Bilder mit hoher Auflösung, kann es Situationen geben, in denen dies nicht möglich ist. Eine alternative Möglichkeit, die Workload aufzuteilen, besteht darin, das Modell auf mehrere Computergeräte zu partitionieren. Dieser Ansatz wird als modellparalleles verteiltes Training bezeichnet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Versionshinweise

Beginnen Sie mit verteilten Schulungen in Amazon SageMaker