Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Der EMR Amazon-Cluster endet mit NO_ _ LEFT und den SLAVE Kernknoten _BY_ FAILED MASTER
Dies passiert in der Regel, da der Beendigungsschutz deaktiviert ist, und alle Core-Knoten überschreiten die Datenträger-Speicherkapazität, die durch einen Schwellenwert für die maximale Auslastung in der yarn-site
-Konfigurationsklassifizierung angegeben ist, die der yarn-site.xml
-Datei entspricht. Dieser Wert liegt standardmäßig bei 90 %. Wenn die Festplattenauslastung für einen Core-Knoten den Auslastungsschwellenwert überschreitet, meldet der YARN NodeManager Health Service den Knoten als. UNHEALTHY
In diesem Zustand listet Amazon EMR Deny den Knoten auf und weist ihm keine YARN Container zu. Wenn der Knoten 45 Minuten lang fehlerhaft bleibt, EMR markiert Amazon die zugehörige EC2 Amazon-Instance zur Kündigung alsFAILED_BY_MASTER
. Wenn alle EC2 Amazon-Instances, die mit Kernknoten verknüpft sind, für die Kündigung markiert sind, wird der Cluster mit dem Status beendet, NO_SLAVE_LEFT
da keine Ressourcen zur Ausführung von Jobs vorhanden sind.
Das Überschreiten der Datenträgernutzung auf einem Core-Knoten könnte eine Kettenreaktion auslösen. Wenn ein einzelner Knoten den Schwellenwert für die Festplattenauslastung aus diesem Grund überschreitetHDFS, befinden sich wahrscheinlich auch andere Knoten in der Nähe des Schwellenwerts. Der erste Knoten überschreitet den Schwellenwert für die Festplattenauslastung, weshalb Amazon EMR Deny ihn auflistet. Dies erhöht die Belastung der verbleibenden Knoten durch die Festplattenauslastung, da sie damit beginnen, HDFS Daten, die sie auf dem Knoten auf der Sperrliste verloren haben, untereinander zu replizieren. Jeder Knoten wird anschließend auf die gleiche Weise in den Zustand UNHEALTHY
versetzt und der Cluster wird schließlich beendet.
Bewährte Methoden und Empfehlungen
Konfigurieren von Cluster-Hardware mit ausreichend Speicher
Wenn Sie einen Cluster erstellen, stellen Sie sicher, dass genügend Kernknoten vorhanden sind und dass jeder über einen geeigneten Instance-Speicher und EBS Speichervolumes für verfügt. HDFS Weitere Informationen finden Sie unter Berechnung der erforderlichen HDFS Kapazität eines Clusters. Sie können auch Core-Instances manuell oder mithilfe der automatischen Skalierung zu vorhandenen Instance-Gruppen hinzuzufügen. Die neuen Instances haben dieselbe Speicherkonfiguration wie andere Instances in der Instance-Gruppe. Weitere Informationen finden Sie unter Verwenden Sie die EMR Amazon-Cluster-Skalierung, um sich an wechselnde Workloads anzupassen.
Aktivieren des Beendigungsschutzes
Beendigungsschutz aktivieren. Auf diese Weise können Sie, wenn ein Core-Node auf der Deny-Liste steht, eine Verbindung zu der zugehörigen EC2 Amazon-Instance herstellenSSH, die zur Fehlerbehebung und Wiederherstellung von Daten verwendet wird. Wenn Sie den Kündigungsschutz aktivieren, beachten Sie, dass Amazon die EC2 Amazon-Instance EMR nicht durch eine neue Instance ersetzt. Weitere Informationen finden Sie unter Verwenden Sie den Kündigungsschutz, um Ihre EMR Amazon-Cluster vor einem versehentlichen Herunterfahren zu schützen.
Erstellen Sie einen Alarm für die MRUnhealthyNodes CloudWatch Metrik
Diese Metrik meldet die Anzahl der Knoten mit dem Status UNHEALTHY
. Es entspricht der YARN Metrikmapred.resourcemanager.NoOfUnhealthyNodes
. Sie können eine Benachrichtigung für diesen Alarm einrichten, um über fehlerhafte Knoten informiert zu werden, bevor der 45-Minuten-Timeout erreicht ist. Weitere Informationen finden Sie unter Überwachung von EMR Amazon-Metriken mit CloudWatch.
Anpassen von Einstellungen mit yarn-site
Die folgenden Einstellungen können an Ihre Anwendungsanforderungen angepasst werden. Beispiel: Sie möchten den Schwellenwert für die Datenträgernutzung erhöhen, bei dem ein Knoten UNHEALTHY
melden, indem Sie den Wert von yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage
erhöhen.
Sie können diese Werte festlegen, wenn Sie einen Cluster mithilfe der yarn-site
-Konfigurationsklassifizierung erstellen. Weitere Informationen finden Sie unter Konfiguration von Anwendungen im EMRAmazon-Versionshandbuch. Sie können auch mithilfe eines Texteditors eine Verbindung zu den EC2 Amazon-Instances herstellenSSH, die mit den Kernknoten verknüpft sind, und dann die Werte hinzufügen. /etc/hadoop/conf.empty/yarn-site.xml
Nachdem Sie die Änderung vorgenommen haben, müssen Sie hadoop-yarn-nodemanager wie unten gezeigt neu starten.
Wichtig
Wenn Sie den NodeManager Dienst neu starten, werden aktive YARN Container beendet, es yarn.nodemanager.recovery.enabled
sei denn, Sie haben bei der Erstellung des Clusters die true
Verwendung der yarn-site
Konfigurationsklassifizierung festgelegt. Darüber hinaus müssen Sie über die Eigenschaft yarn.nodemanager.recovery.dir
das Verzeichnis angeben, in dem der Containerstatus gespeichert werden soll.
sudo /sbin/stop hadoop-yarn-nodemanager sudo /sbin/start hadoop-yarn-nodemanager
Weitere Informationen zu aktuellen yarn-site
Eigenschaften und Standardwerten finden Sie unter YARNStandardeinstellungen
Eigenschaft | Standardwert | Beschreibung |
---|---|---|
yarn.nodemanager. disk-health-checker.interval-ms |
120000 |
Die Häufigkeit (in Sekunden), mit der die Datenträger-Zustandsprüfung ausgeführt wird. |
garn.nodemanager. disk-health-checker. min-healthy-disks |
0,25 |
Der Mindestanteil der Anzahl der Festplatten, die fehlerfrei sein müssen, NodeManager damit neue Container gestartet werden können. Dies entspricht sowohl yarn.nodemanager.local-dirs (standardmäßig in Amazon) als auch yarn.nodemanager.log-dirs (standardmäßig, mit dem |
|
90.0 |
Der maximale Prozentsatz der zulässigen Speicherplatzauslastung, ab der ein Datenträger als fehlerhaft markiert wird. Die Werte können zwischen 0,0 und 100,0 liegen. Wenn der Wert größer oder gleich 100 ist, wird geprüft, ob eine volle Festplatte vorhanden ist. NodeManager Dies gilt für |
|
0 |
Der mindestens erforderliche verfügbare Speicherplatz, damit ein Datenträger verwendet werden kann. Dies gilt für |