Überlegungen zur parallel Ausführung mehrerer Schritte, wenn Sie Arbeiten bei Amazon einreichen EMR - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überlegungen zur parallel Ausführung mehrerer Schritte, wenn Sie Arbeiten bei Amazon einreichen EMR

Die parallel Ausführung mehrerer Schritte bei der Einreichung von Arbeiten an Amazon EMR erfordert vorläufige Entscheidungen über die Ressourcenplanung und die Erwartungen in Bezug auf das Clusterverhalten. Diese werden hier ausführlich behandelt.

  • Parallel laufende Schritte können in beliebiger Reihenfolge abgeschlossen werden, aber ausstehende Schritte in der Warteschlange gehen in der Reihenfolge in den laufenden Zustand über, in der sie eingereicht wurden.

  • Wenn Sie eine Nebenläufigkeitsstufe für Schritte für den Cluster auswählen, müssen Sie überlegen, ob der Primärknoten-Instance-Typ die Speicheranforderungen von Benutzer-Workloads erfüllt. Der Hauptschrittausführungsprozess wird für jeden Schritt auf dem Primärknoten ausgeführt. Die parallel Ausführung mehrerer Schritte erfordert mehr Speicher und CPU Auslastung vom Primärknoten als die Ausführung eines Schritts nach dem anderen.

  • Um eine komplexe Planung und Ressourcenverwaltung gleichzeitiger Schritte zu erreichen, können Sie YARN Planungsfunktionen wie FairScheduler oder CapacityScheduler verwenden. Beispielsweise können Sie FairScheduler mit einem queueMaxAppsDefault-Satz verwenden, um zu verhindern, dass mehr als eine bestimmte Anzahl von Aufgaben gleichzeitig ausgeführt werden.

  • Die Nebenläufigkeitsstufe für Schritte unterliegt den Konfigurationen von Ressourcenmanagern. Wenn beispielsweise nur mit einer Parallelität von konfiguriert YARN ist5, können nur fünf YARN Anwendungen parallel ausgeführt werden, auch wenn die auf eingestellt StepConcurrencyLevel ist. 10 Weitere Informationen zur Konfiguration von Resource Managern finden Sie unter Configure applications im Amazon EMR Release Guide.

  • Sie können nur dann einen Schritt hinzufügen, CONTINUE wenn die Schrittparallelitätsstufe des Clusters größer als 1 ist. ActionOnFailure

  • Wenn die Step-Parallelitätsstufe eines Clusters größer als eins ist, wird das ActionOnFailure-Step-Feature nicht aktiviert.

  • Wenn ein Cluster über die Schritt-Parallelitätsstufe 1, aber über mehrere laufende Schritte verfügt, wird TERMINATE_CLUSTER ActionOnFailure möglicherweise aktiviert, CANCEL_AND_WAIT ActionOnFailure jedoch nicht. Dieser Grenzfall tritt auf, wenn die Parallelitätsstufe für Clusterschritte höher als eins war, aber während der Ausführung mehrerer Schritte niedriger war.

  • Sie können die EMR automatische Skalierung verwenden, um je nach Ressourcen nach oben oder unten zu skalieren, um YARN Ressourcenkonflikte zu vermeiden. Weitere Informationen finden Sie unter Automatische Skalierung mit einer benutzerdefinierten Richtlinie für Instanzgruppen verwenden im Amazon EMR Management Guide.

  • Wenn Sie die Stufe der gleichzeitigen Schritte verringern, EMR können alle laufenden Schritte abgeschlossen werden, bevor die Anzahl der Schritte reduziert wird. Wenn die Ressourcen ausgeschöpft sind, weil der Cluster zu viele gleichzeitige Schritte ausführt, empfehlen wir, alle laufenden Schritte manuell abzubrechen, um Ressourcen freizumachen.