Alarmas de clúster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Alarmas de clúster

La supervisión del estado del clúster es esencial para garantizar un rendimiento óptimo. AWS ParallelCluster le permite monitorear múltiples alarmas CloudWatch basadas en el nodo principal del clúster.

En esta sección se proporcionan detalles sobre cada tipo de alarma de clúster del nodo principal, incluidas sus convenciones de nomenclatura, las condiciones específicas que activan las alarmas y las medidas sugeridas para la solución de problemas.

La convención de nomenclatura de las alarmas de clúster esCLUSTER_NAME-COMPONENT-METRIC, mycluster-HeadNode-Cpu p. ej.

  • CLUSTER_NAME-HeadNode: indica el estado general del nodo principal. Se muestra en rojo si al menos una de las siguientes alarmas está activada.

  • CLUSTER_NAME-HeadNode-Health: rojo si hay al menos un error en Amazon EC2 Health Check. En caso de alarma, te sugerimos que consultes la sección Solución de problemas en los que las comprobaciones de estado no se han realizado correctamente.

  • CLUSTER_NAME-HeadNode-Cpu: rojo si CPU la utilización es superior al 90%. En caso de alarma, compruebe los procesos que más consumenps -aux --sort=-%cpu | head -n 10. CPU

  • CLUSTER_NAME-HeadNode-Mem: rojo si la utilización de la memoria es superior al 90%. En caso de alarma, compruebe con atención los procesos que más consumen memoriaps -aux --sort=-%mem | head -n 10.

  • CLUSTER_NAME-HeadNode-Disk: rojo si el espacio ocupado en disco es superior al 90% en la ruta /. En caso de alarma, compruebe las carpetas que ocupan la mayor parte del espacio. du -h --max-depth=2 / 2> /dev/null | sort -hr