AWS ParallelCluster Prozesse - AWS ParallelCluster

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS ParallelCluster Prozesse

Dieser Abschnitt bezieht sich auf Cluster, die mit bereitgestellt werden Slurm. AWS ParallelCluster Verwaltet bei Verwendung mit diesem Scheduler die Bereitstellung und Entfernung von Rechenknoten durch Interaktion mit dem zugrundeliegenden Job-Scheduler.

Bei HPC Clustern, die auf basieren AWS Batch, AWS ParallelCluster hängt von den Funktionen ab, die von der AWS Batch für die Compute-Knotenverwaltung bereitgestellt werden.

clustermgtd

Die folgenden Aufgaben werden vom Clusterverwaltungs-Daemon ausgeführt.

  • Säuberung inaktiver Partitionen

  • Verwaltung von Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind (siehe folgenden Abschnitt)

  • Statisches Kapazitätsmanagement: Stellen Sie sicher, dass die statische Kapazität immer verfügbar und funktionsfähig ist

  • Synchronisieren Sie den Scheduler mit AmazonEC2.

  • Bereinigung verwaister Instances

  • Den Status des Scheduler-Knotens bei Amazon wiederherstellen — EC2 Kündigung, die außerhalb des Suspend-Workflows erfolgt

  • Verwaltung fehlerhafter EC2 Amazon-Instanzen (fehlgeschlagene EC2 Amazon-Gesundheitschecks)

  • Verwaltung von geplanten Wartungsereignissen

  • Verwaltung fehlerhafter Scheduler-Knoten (fehlgeschlagene Zustandsprüfungen im Scheduler)

Verwaltung von Slurm Reservierungen und Knoten, die mit Kapazitätsblöcken verknüpft sind

ParallelCluster unterstützt On-Demand-Kapazitätsreservierungen (ODCR) und Kapazitätsblöcke für Machine Learning (CB). Im ODCR Gegensatz dazu kann CB eine future Startzeit haben und ist zeitgebunden.

Clustermgtd sucht in einer Schleife nach fehlerhaften Knoten und beendet alle ausgefallenen EC2 Amazon-Instances. Wenn es sich um statische Knoten handelt, werden sie durch neue Instances ersetzt.

ParallelCluster verwaltet statische Knoten, die Kapazitätsblöcken zugeordnet sind, unterschiedlich. AWS ParallelCluster erstellt einen Cluster, auch wenn der CB noch nicht aktiv ist, und Instances werden automatisch gestartet, sobald der CB aktiv ist.

Das Tool Slurm Knoten, die den zugehörigen Rechenressourcen entsprechenCBs, die noch nicht aktiv sind, werden solange gewartet, bis die CB-Startzeit erreicht ist. Slurm Knoten verbleiben in einem Reservierungs-/Wartungszustand, der mit dem verknüpft ist Slurm Admin-Benutzer, was bedeutet, dass er Jobs annehmen kann, aber Jobs bleiben so lange ausstehend, bis Slurm Die Reservierung wurde entfernt.

Clustermgtd wird automatisch erstellt/gelöscht Slurm Reservierungen, wodurch die zugehörigen CB-Knoten auf der Grundlage des CB-Status gewartet werden. Wenn CB aktiv sein wird, Slurm Die Reservierung wird entfernt, die Knoten werden gestartet und stehen für ausstehende Jobs oder für neu eingereichte Jobs zur Verfügung.

Wenn die CB-Endzeit erreicht ist, werden die Knoten wieder in den Reservierungs-/Wartungsstatus versetzt. Es liegt an den Benutzern, die Jobs erneut zu senden/in eine neue Warteschleife/Rechenressource einzureihen, wenn CB nicht mehr aktiv ist und Instances beendet werden.

clusterstatusmgtd

Der Cluster-Statusmanagement-Daemon verwaltet die Aktualisierung des Compute-Flottenstatus. Jede Minute ruft es den in einer DynamoDB-Tabelle gespeicherten Flottenstatus ab und verwaltet alle STOP /-Anfragen. START

computemgtd

Compute Management Daemon (computemgtd) -Prozesse werden auf jedem der Cluster-Rechenknoten ausgeführt. Alle fünf (5) Minuten bestätigt der Compute Management Daemon, dass der Hauptknoten erreichbar ist und fehlerfrei ist. Wenn fünf (5) Minuten vergehen, in denen der Hauptknoten nicht erreicht werden kann oder nicht fehlerfrei ist, wird der Rechenknoten heruntergefahren.