Alarmes de cluster - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Alarmes de cluster

La surveillance de l'état du cluster est essentielle pour garantir des performances optimales. AWS ParallelCluster vous permet de surveiller plusieurs alarmes CloudWatch basées sur le nœud principal du cluster.

Cette section fournit des détails sur chaque type d'alarmes du cluster de nœuds principaux, y compris ses conventions de dénomination, les conditions spécifiques qui déclenchent les alarmes et les étapes de dépannage suggérées.

La convention de dénomination pour les alarmes de cluster estCLUSTER_NAME-COMPONENT-METRIC, par mycluster-HeadNode-Cpu ex.

  • CLUSTER_NAME-HeadNode: indique l'état général du nœud principal. Il est rouge si au moins l'une des alarmes ci-dessous l'est.

  • CLUSTER_NAME-HeadNode-Health: rouge s'il y a au moins un échec d'Amazon EC2 Health Check. En cas d'alarme, nous vous suggérons de consulter la section Résoudre les problèmes des instances dont les vérifications d'état ont échoué.

  • CLUSTER_NAME-HeadNode-Cpu: rouge si CPU l'utilisation est supérieure à 90 %. En cas d'alarme, vérifiez les processus CPU les plus gourmands avecps -aux --sort=-%cpu | head -n 10.

  • CLUSTER_NAME-HeadNode-Mem: rouge si l'utilisation de la mémoire est supérieure à 90 %. En cas d'alarme, vérifiez les processus qui consomment le plus de mémoireps -aux --sort=-%mem | head -n 10.

  • CLUSTER_NAME-HeadNode-Disk: rouge si l'espace disque occupé est supérieur à 90 % sur le chemin /. En cas d'alarme, vérifiez les dossiers qui occupent la plus grande partie de l'espacedu -h --max-depth=2 / 2> /dev/null | sort -hr.