Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Alarmes de cluster - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Alarmes de cluster

La surveillance de l'état du cluster est essentielle pour garantir des performances optimales. AWS ParallelCluster vous permet de surveiller plusieurs alarmes CloudWatch basées sur le nœud principal du cluster.

Cette section fournit des détails sur chaque type d'alarmes du cluster de nœuds principaux, y compris ses conventions de dénomination, les conditions spécifiques qui déclenchent les alarmes et les étapes de dépannage suggérées.

La convention de dénomination pour les alarmes de cluster estCLUSTER_NAME-COMPONENT-METRIC, par exemple mycluster-HeadNode-Cpu

  • CLUSTER_NAME-HeadNode: indique l'état général du nœud principal. Il est rouge si au moins l'une des alarmes ci-dessous l'est.

  • CLUSTER_NAME-HeadNode-Health: rouge s'il y a au moins un échec d'Amazon EC2 Health Check. En cas d'alarme, nous vous suggérons de consulter la section Résoudre les problèmes des instances dont les vérifications d'état ont échoué.

  • CLUSTER_NAME-HeadNode-Cpu: rouge si l'utilisation du processeur est supérieure à 90 %. En cas d'alarme, vérifiez quels sont les processus qui consomment le plus le processeurps -aux --sort=-%cpu | head -n 10.

  • CLUSTER_NAME-HeadNode-Mem: rouge si l'utilisation de la mémoire est supérieure à 90 %. En cas d'alarme, vérifiez les processus qui consomment le plus de mémoireps -aux --sort=-%mem | head -n 10.

  • CLUSTER_NAME-HeadNode-Disk: rouge si l'espace disque occupé est supérieur à 90 % sur le chemin /. En cas d'alarme, vérifiez les dossiers qui occupent la plus grande partie de l'espacedu -h --max-depth=2 / 2> /dev/null | sort -hr.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.