Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überlegungen zur parallel Ausführung mehrerer Schritte, wenn Sie Arbeiten bei Amazon einreichen EMR
Die parallel Ausführung mehrerer Schritte bei der Einreichung von Arbeiten an Amazon EMR erfordert vorläufige Entscheidungen über die Ressourcenplanung und die Erwartungen in Bezug auf das Clusterverhalten. Diese werden hier ausführlich behandelt.
-
Parallel laufende Schritte können in beliebiger Reihenfolge abgeschlossen werden, aber ausstehende Schritte in der Warteschlange gehen in der Reihenfolge in den laufenden Zustand über, in der sie eingereicht wurden.
-
Wenn Sie eine Nebenläufigkeitsstufe für Schritte für den Cluster auswählen, müssen Sie überlegen, ob der Primärknoten-Instance-Typ die Speicheranforderungen von Benutzer-Workloads erfüllt. Der Hauptschrittausführungsprozess wird für jeden Schritt auf dem Primärknoten ausgeführt. Die parallel Ausführung mehrerer Schritte erfordert mehr Speicher und CPU Auslastung vom Primärknoten als die Ausführung eines Schritts nach dem anderen.
-
Um eine komplexe Planung und Ressourcenverwaltung gleichzeitiger Schritte zu erreichen, können Sie YARN Planungsfunktionen wie
FairScheduler
oderCapacityScheduler
verwenden. Beispielsweise können SieFairScheduler
mit einemqueueMaxAppsDefault
-Satz verwenden, um zu verhindern, dass mehr als eine bestimmte Anzahl von Aufgaben gleichzeitig ausgeführt werden. -
Die Nebenläufigkeitsstufe für Schritte unterliegt den Konfigurationen von Ressourcenmanagern. Wenn beispielsweise nur mit einer Parallelität von konfiguriert YARN ist
5
, können nur fünf YARN Anwendungen parallel ausgeführt werden, auch wenn die auf eingestelltStepConcurrencyLevel
ist.10
Weitere Informationen zur Konfiguration von Resource Managern finden Sie unter Configure applications im Amazon EMR Release Guide. -
Sie können nur dann einen Schritt hinzufügen, CONTINUE wenn die Schrittparallelitätsstufe des Clusters größer als 1 ist.
ActionOnFailure
-
Wenn die Step-Parallelitätsstufe eines Clusters größer als eins ist, wird das
ActionOnFailure
-Step-Feature nicht aktiviert. -
Wenn ein Cluster über die Schritt-Parallelitätsstufe
1
, aber über mehrere laufende Schritte verfügt, wirdTERMINATE_CLUSTER ActionOnFailure
möglicherweise aktiviert,CANCEL_AND_WAIT ActionOnFailure
jedoch nicht. Dieser Grenzfall tritt auf, wenn die Parallelitätsstufe für Clusterschritte höher als eins war, aber während der Ausführung mehrerer Schritte niedriger war. -
Sie können die EMR automatische Skalierung verwenden, um je nach Ressourcen nach oben oder unten zu skalieren, um YARN Ressourcenkonflikte zu vermeiden. Weitere Informationen finden Sie unter Automatische Skalierung mit einer benutzerdefinierten Richtlinie für Instanzgruppen verwenden im Amazon EMR Management Guide.
-
Wenn Sie die Stufe der gleichzeitigen Schritte verringern, EMR können alle laufenden Schritte abgeschlossen werden, bevor die Anzahl der Schritte reduziert wird. Wenn die Ressourcen ausgeschöpft sind, weil der Cluster zu viele gleichzeitige Schritte ausführt, empfehlen wir, alle laufenden Schritte manuell abzubrechen, um Ressourcen freizumachen.