Verstehen Sie die Knotentypen in AmazonEMR: Primär-, Kern- und Aufgabenknoten - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verstehen Sie die Knotentypen in AmazonEMR: Primär-, Kern- und Aufgabenknoten

Verwenden Sie diesen Abschnitt, um zu verstehen, wie Amazon jeden dieser Knotentypen EMR verwendet, und als Grundlage für die Cluster-Kapazitätsplanung.

Primärknoten

Der Primärknoten verwaltet die Cluster und führt die Master-Komponenten von verteilten Anwendungen aus. Beispielsweise führt der primäre Knoten den YARN ResourceManager Service aus, um Ressourcen für Anwendungen zu verwalten. Er führt auch den HDFS NameNode Dienst aus, verfolgt den Status der an den Cluster übermittelten Jobs und überwacht den Zustand der Instanzgruppen.

Um den Fortschritt eines Clusters zu überwachen und direkt mit Anwendungen zu interagieren, können Sie SSH als Hadoop-Benutzer eine Verbindung zum primären Knoten herstellen. Weitere Informationen finden Sie unter Connect zum primären EMR Amazon-Cluster-Knoten her, indem Sie SSH. Durch das Verbinden mit dem Primärknoten erhalten Sie direkten Zugriff auf Verzeichnisse und Dateien, wie z. B. Hadoop-Protokolldateien. Weitere Informationen finden Sie unter EMRAmazon-Protokolldateien anzeigen. Sie können auch Benutzeroberflächen anzeigen, die von den Anwendungen als auf dem Primärknoten ausgeführte Websites veröffentlicht werden. Weitere Informationen finden Sie unter Auf EMR Amazon-Clustern gehostete Weboberflächen anzeigen.

Anmerkung

Mit Amazon EMR 5.23.0 und höher können Sie einen Cluster mit drei primären Knoten starten, um die Hochverfügbarkeit von Anwendungen wie YARN Resource Manager, Spark HDFS NameNode, Hive und Ganglia zu unterstützen. Der Primärknoten ist mit diesem Feature keine potenzielle einzelne Fehlerquelle mehr. Wenn einer der Primärknoten ausfällt, wechselt Amazon EMR automatisch zu einem Standby-Primärknoten und ersetzt den ausgefallenen Primärknoten durch einen neuen mit derselben Konfiguration und denselben Bootstrap-Aktionen. Weitere Informationen finden Sie unter Primärknoten planen und konfigurieren.

Core-Knoten

Core-Knoten werden vom Primärknoten verwaltet. Auf den Kernknoten wird der Data Node-Daemon ausgeführt, um die Datenspeicherung als Teil des Hadoop Distributed File Systems () zu koordinieren. HDFS Außerdem führen sie den TaskTracker-Daemon und andere parallele Rechenaufgaben für Daten aus, die für installierte Anwendungen erforderlich sind. Auf einem Core-Knoten werden beispielsweise YARN NodeManager Daemons, MapReduce Hadoop-Aufgaben und Spark-Executors ausgeführt.

Es gibt nur eine Core-Instance-Gruppe oder Instance-Flotte pro Cluster, aber es können mehrere Knoten auf mehreren EC2 Amazon-Instances in der Instance-Gruppe oder Instance-Flotte laufen. Mit Instanzgruppen können Sie EC2 Amazon-Instances hinzufügen und entfernen, während der Cluster läuft. Sie können auch ein Auto Scaling einrichten, um Instances auf der Grundlage des Werts einer Metrik hinzuzufügen. Weitere Informationen zum Hinzufügen und Entfernen von EC2 Amazon-Instances mit der Instanzgruppen-Konfiguration finden Sie unterVerwenden Sie die EMR Amazon-Cluster-Skalierung, um sich an wechselnde Workloads anzupassen.

Mit Instance-Flotten können Sie Instances effektiv hinzufügen und entfernen, indem Sie die Zielkapazitäten der Instance-Flotte für On-Demand- und Spot Instances entsprechend anpassen. Weitere Informationen zu den Zielkapazitäten finden Sie unter Instance-Flotten-Optionen.

Warnung

Wenn Sie HDFS Daemons von einem laufenden Core-Node entfernen oder Core-Nodes beenden, besteht die Gefahr von Datenverlust. Seien Sie beim Konfigurieren von Core-Knoten für die Verwendung von Spot Instances vorsichtig. Weitere Informationen finden Sie unter Wann sollten Sie Spot Instances verwenden?.

Aufgabenknoten

Sie können Task-Knoten verwenden, um Leistung für parallel Berechnungsaufgaben für Daten hinzuzufügen, z. B. MapReduce Hadoop-Aufgaben und Spark-Executoren. Task-Knoten führen den Data Node-Daemon nicht aus und speichern auch keine Daten darin. HDFS Wie bei Core-Nodes können Sie Task-Knoten zu einem Cluster hinzufügen, indem Sie EC2 Amazon-Instances zu einer bestehenden einheitlichen Instance-Gruppe hinzufügen oder indem Sie die Zielkapazitäten für eine Task-Instance-Flotte ändern.

Mit der einheitlichen Instance-Gruppenkonfiguration können Sie über bis zu 48 Aufgaben-Instance-Gruppen verfügen. Durch die Möglichkeit, Instance-Gruppen auf diese Weise hinzuzufügen, können Sie EC2 Amazon-Instance-Typen und Preisoptionen wie On-Demand-Instances und Spot-Instances kombinieren. Dadurch haben Sie die Flexibilität, kosteneffizient auf Workload-Anforderungen zu reagieren.

Mit der Instance-Flottenkonfiguration ist die Möglichkeit integriert, Instance-Typen und Kaufoptionen zu kombinieren, sodass nur eine Aufgaben-Instance-Flotte vorhanden ist.

Da Spot-Instances häufig zum Ausführen von Task-Knoten verwendet werden, EMR verfügt Amazon über Standardfunktionen für die Planung von YARN Jobs, sodass laufende Jobs nicht fehlschlagen, wenn Task-Knoten, die auf Spot-Instances ausgeführt werden, beendet werden. Amazon ermöglicht EMR dies, indem es die Ausführung von Anwendungsmasterprozessen nur auf Kernknoten zulässt. Der Anwendungsmasterprozess steuert die Ausführung von Aufträgen und muss während der gesamten Laufzeit des Auftrags aktiv bleiben.

EMRAmazon-Version 5.19.0 und höher verwendet die integrierte YARNNode Labels-Funktion, um dies zu erreichen. (Frühere Versionen verwendeten einen Code-Patch). Eigenschaften in den Klassifizierungen yarn-site und in der capacity-scheduler Konfiguration sind standardmäßig so konfiguriert, dass der YARN Capacity-Scheduler und der Fair-Scheduler die Vorteile von Node-Labels nutzen. Amazon kennzeichnet Kernknoten EMR automatisch mit dem CORE Label und legt Eigenschaften fest, sodass Anwendungsmaster nur für Knoten mit dem CORE Label geplant werden. Durch manuelles Ändern verwandter Eigenschaften in den Konfigurationsklassifizierungen von Yarn-Site und Capacity-Scheduler oder direkt in den zugehörigen XML Dateien könnte diese Funktion beeinträchtigt oder verändert werden.

Ab der Amazon EMR 6.x-Release-Serie ist die Funktion YARN Node Labels standardmäßig deaktiviert. Die Anwendungs-Primär-Prozesse können standardmäßig sowohl auf Core- als auch auf Aufgabenknoten ausgeführt werden. Sie können die Funktion „YARNNode Labels“ aktivieren, indem Sie die folgenden Eigenschaften konfigurieren:

  • yarn.node-labels.enabled: true

  • yarn.node-labels.am.default-node-label-expression: 'CORE'

Ab der Amazon EMR 7.x-Release-Serie EMR weist Amazon Instances YARN Node-Labels nach ihrem Markttyp zu, z. B. On-Demand oder Spot. Sie können Node-Labels aktivieren und Anwendungsprozesse auf ON_ beschränken, DEMAND indem Sie die folgenden Eigenschaften konfigurieren:

yarn.node-labels.enabled: true yarn.node-labels.am.default-node-label-expression: 'ON_DEMAND'

Wenn Sie Amazon EMR 7.0 oder höher verwenden, können Sie den Anwendungsprozess mit der folgenden Konfiguration auf Knoten mit dem CODE Label beschränken:

yarn.node-labels.enabled: true yarn.node-labels.am.default-node-label-expression: 'CORE'

Wenn Ihr Cluster für EMR Amazon-Versionen 7.2 und höher verwaltete Skalierung mit Knotenbezeichnungen verwendet, versucht AmazonEMR, den Cluster unabhängig vom Anwendungsprozess und der Nachfrage der Executoren zu skalieren.

Wenn Sie beispielsweise EMR Amazon-Versionen 7.2 oder höher verwenden und den Anwendungsprozess auf ON_DEMAND Knoten beschränken, skaliert Managed Scaling die ON_DEMAND Knoten nach oben, wenn die Nachfrage nach Anwendungsprozessen steigt. Ähnlich verhält es sich, wenn Sie den Anwendungsprozess auf CORE Knoten beschränken, bei verwalteter Skalierung die CORE Knoten hochskaliert, wenn die Nachfrage nach Anwendungsprozessen steigt.

Informationen zu spezifischen Eigenschaften finden Sie unter EMRAmazon-Einstellungen zur Vermeidung von Auftragsausfällen aufgrund der Kündigung der Spot-Instance des Task-Knotens.