Alarmas de clúster

La supervisión del estado del clúster es esencial para garantizar un rendimiento óptimo. AWS ParallelCluster le permite monitorear múltiples alarmas CloudWatch basadas en el nodo principal del clúster.

En esta sección se proporcionan detalles sobre cada tipo de alarma de clúster del nodo principal, incluidas sus convenciones de nomenclatura, las condiciones específicas que activan las alarmas y las medidas sugeridas para la solución de problemas.

La convención de nomenclatura de las alarmas de clúster esCLUSTER_NAME-COMPONENT-METRIC, mycluster-HeadNode-Cpu p. ej.

CLUSTER_NAME-HeadNode: indica el estado general del nodo principal. Se muestra en rojo si al menos una de las siguientes alarmas está activada.
CLUSTER_NAME-HeadNode-Health: rojo si hay al menos un error en Amazon EC2 Health Check. En caso de alarma, te sugerimos que consultes la sección Solución de problemas en los que las comprobaciones de estado no se han realizado correctamente.
CLUSTER_NAME-HeadNode-Cpu: rojo si CPU la utilización es superior al 90%. En caso de alarma, compruebe los procesos que más consumenps -aux --sort=-%cpu | head -n 10. CPU
CLUSTER_NAME-HeadNode-Mem: rojo si la utilización de la memoria es superior al 90%. En caso de alarma, compruebe con atención los procesos que más consumen memoriaps -aux --sort=-%mem | head -n 10.
CLUSTER_NAME-HeadNode-Disk: rojo si el espacio ocupado en disco es superior al 90% en la ruta /. En caso de alarma, compruebe las carpetas que ocupan la mayor parte del espacio. du -h --max-depth=2 / 2> /dev/null | sort -hr

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

¿Ve errores con la opción personalizada? Slurm configuración

AWS ParallelCluster política de apoyo