叢集警示 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

叢集警示

叢集運作狀態監控對於確保最佳效能至關重要。 AWS ParallelCluster 可讓您監控叢集主機節點的多個 CloudWatch 警示。

本節提供每種類型的主機節點叢集警示的詳細資訊,包括其命名慣例、觸發警示的特定條件,以及建議的疑難排解步驟。

叢集警示的命名慣例為 CLUSTER_NAME-COMPONENT-METRIC,例如 。 mycluster-HeadNode-Cpu

  • CLUSTER_NAME-HeadNode: 表示主機節點的整體狀態。如果下列至少一個警示是,則為紅色。

  • CLUSTER_NAME-HeadNode-Health:如果至少有一個 Amazon EC2 Health Check 失敗,則為紅色。如果發生警示,建議您查看狀態檢查失敗的故障診斷執行個體。

  • CLUSTER_NAME-HeadNode-Cpu:如果CPU使用率大於 90%,則為紅色。如果發生警示,請使用 檢查消耗CPU最多的程序ps -aux --sort=-%cpu | head -n 10

  • CLUSTER_NAME-HeadNode-Mem:如果記憶體使用率大於 90%,則為紅色。如果發生警示,請使用 檢查消耗記憶體最多的程序ps -aux --sort=-%mem | head -n 10

  • CLUSTER_NAME-HeadNode-Disk:如果路徑 / 上的佔用磁碟空間大於 90%,則為紅色。如果發生警示,請檢查使用 佔用大部分空間的資料夾du -h --max-depth=2 / 2> /dev/null | sort -hr