Cluster-Alarme - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Cluster-Alarme

Die Überwachung des Clusterzustands ist für die Sicherstellung einer optimalen Leistung unerlässlich. AWS ParallelCluster ermöglicht es Ihnen, mehrere CloudWatch Alarme für den Hauptknoten des Clusters zu überwachen.

In diesem Abschnitt finden Sie Einzelheiten zu den einzelnen Alarmen im Headknoten-Cluster, einschließlich der Benennungskonventionen, der spezifischen Bedingungen, die Alarme auslösen, und der empfohlenen Schritte zur Fehlerbehebung.

Die Benennungskonvention für Cluster-Alarme lautet CLUSTER_NAME-COMPONENT-METRIC z. mycluster-HeadNode-Cpu B.

  • CLUSTER_NAME-HeadNode: signalisiert den Gesamtstatus des Kopfknotens. Es ist rot, wenn mindestens einer der unten aufgeführten Alarme aktiviert ist.

  • CLUSTER_NAME-HeadNode-Health: rot, wenn mindestens ein Fehler bei Amazon EC2 Health Check vorliegt. Im Alarmfall empfehlen wir, einen Blick auf die Problembehandlung bei Instanzen mit fehlgeschlagenen Statusprüfungen zu werfen.

  • CLUSTER_NAME-HeadNode-Cpu: rot, wenn die CPU Auslastung mehr als 90% beträgt. Überprüfen Sie im Alarmfall die Prozesse, CPU die am meisten verbrauchenps -aux --sort=-%cpu | head -n 10.

  • CLUSTER_NAME-HeadNode-Mem: rot, wenn die Speicherauslastung mehr als 90% beträgt. Überprüfen Sie im Alarmfall die Prozesse, die den Speicher am meisten verbrauchenps -aux --sort=-%mem | head -n 10.

  • CLUSTER_NAME-HeadNode-Disk: rot, wenn der belegte Speicherplatz auf dem Pfad /mehr als 90% beträgt. Überprüfen Sie im Alarmfall die Ordner, die den größten Teil des Speicherplatzes mit du -h --max-depth=2 / 2> /dev/null | sort -hr belegen.