AWS ParallelCluster processus - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS ParallelCluster processus

Cette section s'applique aux clusters déployés avec Slurm. Lorsqu'il est utilisé avec ce planificateur, il AWS ParallelCluster gère le provisionnement et la suppression des nœuds de calcul en interagissant avec le planificateur de tâches sous-jacent.

Pour les HPC clusters basés sur AWS Batch, AWS ParallelCluster s'appuie sur les fonctionnalités fournies par le AWS Batch pour la gestion des nœuds de calcul.

clustermgtd

Les tâches suivantes sont effectuées par le démon de gestion du cluster.

  • Nettoyage de partitions inactives

  • Gestion de Slurm réservations et nœuds associés aux blocs de capacité (voir section suivante)

  • Gestion de la capacité statique : assurez-vous que la capacité statique est toujours active et saine

  • Synchronisez le planificateur avec Amazon. EC2

  • Nettoyage des instances orphelines

  • Restaurez l'état du nœud du planificateur lors de la EC2 résiliation d'Amazon en dehors du flux de travail de suspension

  • Gestion des EC2 instances Amazon défaillante (échec des bilans EC2 de santé Amazon)

  • Gestion des événements de maintenance planifiés

  • Gestion des nœuds du planificateur défaillante (échec des contrôles de santé du planificateur)

Gestion de Slurm réservations et nœuds associés aux Capacity Blocks

ParallelCluster prend en charge les réservations de capacité à la demande (ODCR) et les blocs de capacité pour le Machine Learning (CB). Au contraireODCR, le CB peut avoir une future heure de début et est limité dans le temps.

Clustermgtd recherche en boucle les nœuds défectueux et met fin à toutes les instances EC2 Amazon inactives, en les remplaçant par de nouvelles instances s'il s'agit de nœuds statiques.

ParallelCluster gère différemment les nœuds statiques associés aux blocs de capacité. AWS ParallelCluster crée un cluster même si le CB n'est pas encore actif, et les instances sont lancées automatiquement une fois que le CB est actif.

Le Slurm les nœuds correspondant aux ressources de calcul associées CBs qui ne sont pas encore actifs sont maintenus en maintenance jusqu'à ce que l'heure de début du CB soit atteinte. Slurm les nœuds resteront dans un état de réservation/maintenance associé au Slurm utilisateur administrateur, ce qui signifie qu'il peut accepter des tâches, mais les tâches resteront en attente jusqu'au Slurm la réservation est supprimée.

Clustermgtd créera ou supprimera automatiquement Slurm réservations, en mettant les nœuds CB associés en maintenance en fonction de l'état du CB. Lorsque le CB sera actif, Slurm la réservation sera supprimée, les nœuds démarreront et seront disponibles pour les tâches en attente ou pour les soumissions de nouvelles offres d'emploi.

Lorsque l'heure de fin du CB est atteinte, les nœuds repassent à l'état de réservation/maintenance. Il appartient aux utilisateurs de soumettre/de mettre en attente les tâches dans une nouvelle file d'attente/ressource de calcul lorsque le CB n'est plus actif et que les instances sont résiliées.

clusterstatusmgtd

Le démon de gestion de l'état du cluster gère la mise à jour de l'état du parc informatique. Chaque minute, il récupère l'état du parc enregistré dans une table DynamoDB et gère toute requête/. STOP START

computemgtd

Les processus Compute Management Daemon (computemgtd) s'exécutent sur chacun des nœuds de calcul du cluster. Toutes les cinq (5) minutes, le démon de gestion informatique confirme que le nœud principal est joignable et qu'il est sain. Si cinq (5) minutes s'écoulent pendant lesquelles le nœud principal ne peut pas être atteint ou n'est pas sain, le nœud de calcul est arrêté.