本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
疑難排解叢集健康度
從 3.6.0 AWS ParallelCluster 版開始,叢集運作狀態指標會新增至 AWS ParallelCluster Amazon CloudWatch 儀表板。在以下各節中,您可以瞭解儀表板健全狀況指標,以及疑難排解和解決問題時可採取的動作。
查看執行處理啟動設定錯誤圖
如果您在圖表中看到非零值,則Instance Provisioning Errors
表示用於支援 slurm 節點的 Amazon EC2 執行個體無法在或 API 上啟動。CreateFleet
RunInstance
看得見 IAMPolicyErrors
-
發生了什麼事?
許多執行個體無法啟動,這是因為權限不足且具有錯誤碼的原因
UnauthorizedOperation
。 -
如何解決?
如果您已設定自訂InstanceRole或 InstanceProfile,請檢查您的 IAM 政策,並確認您使用的是正確的登入資料。
檢查
clustermgtd
文件中的靜態節點錯誤詳細信息。檢查slurm_resume.log
文件中的動態節點錯誤詳細信息。使用詳細資料進一步瞭解必須新增的遺失權限。
看得見 VcpuLimitErrors
-
發生了什麼事?
AWS ParallelCluster 無法啟動執行個體,因為它達到您 AWS 帳戶 針對叢集運算節點設定的特定 Amazon EC2 執行個體類型的 vCPU 限制。
-
如何解決?
檢查
clustermgtd
檔案中是否有靜態節點的VcpuLimitExceeded
錯誤,並簽入slurm_resume.log
檔案中的動態節點以取得其他詳細資料。若要解決此問題,您可以要求提高 vCPU 限制。如需有關如何檢視目前限制和請求新限制的詳細資訊,請參閱 Amazon 彈性運算雲端 Linux 執行個體使用者指南中的 Amazon 彈性運算雲端服務配額。
看得見 VolumeLimitErrors
-
發生了什麼事?
您已達到您的 Amazon EBS 磁碟區限制 AWS 帳戶,且 AWS ParallelCluster 無法使用錯誤碼
InsufficientVolumeCapacity
或VolumeLimitExceeded
啟動執行個體。 -
如何解決?
檢查
clustermgtd
檔案是否有靜態節點,並檢查slurm_resume.log
檔案是否有動態節點,以取得額外的磁碟區限制詳細資訊。若要解決此問題,您可以使用不同的磁碟區 AWS 區域、清理現有磁碟區,或聯絡 Sup AWS port 中心提交要求以提高 Amazon EBS 磁碟區限制。
看得見 InsufficientCapacityErrors
-
發生了什麼事?
AWS ParallelCluster 沒有足夠的容量來啟動 Amazon EC2 執行個體來支援節點。
-
如何解決?
檢查
clustermgtd
文件中的靜態節點,並檢查slurm_resume.log
文件中的動態節點以獲取容量不足的錯誤詳細信息。若要疑難排解此問題,請依照 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/的指引進行。
OtherInstanceLaunchFailures
-
發生了什麼事?
用於支援運算節點的 Amazon EC2 執行個體無法使用
CreateFleet
或RunInstance
API 啟動。 -
如何解決?
檢查
clustermgtd
文件中的靜態節點,並檢查slurm_resume.log
文件中的動態節點以獲取錯誤詳細信息。
查看狀態不良的執行個體錯誤圖表
-
發生了什麼事?
已啟動數個運算執行個體,但後來終止為狀態不佳。
-
如何解決?
如需疑難排解狀態不良節點的詳細資訊,請參閱對非預期節點替換和終止進行故障診斷。
看得見 InstanceBootstrapTimeoutError
-
發生了什麼事?
執行個體無法在
resume_timeout
(針對動態節點) 或node_replacement_timeout
(針對靜態節點) 內加入叢集。如果網路未正確設定運算節點,則可能會發生這種情況,或者如果在運算節點上執行的自訂指令碼花費太長時間才能完成,則可能會發生這種情況。 -
如何解決?
對於動態節點,請檢查
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) 是否有計算節點 IP 位址和錯誤,例如:Node bootstrap error: Resume timeout expires for node
對於靜態節點,請檢查
clustermgtd
log (/var/log/parallelcluster/clustermgtd
) 中的計算節點 IP 位址和錯誤,如下所示:Node bootstrap error: Replacement timeout expires for node ... in replacement.
如需其他詳細資訊,請檢查
/var/log/cloud-init-output.log
檔案是否有錯誤。您可以從clustermgtd
和slurm_resume
記錄檔擷取有問題的計算節點 IP 位址。
看得見 EC2HealthCheckErrors
-
發生了什麼事?
執行個體無法進行 Amazon EC2 作狀態檢查。
-
如何解決?
如需如何疑難排解此問題的相關資訊,請參閱疑難排解執行個體狀態檢查失敗。
看得見 ScheduledEventHealthCheckErrors
-
發生了什麼事?
Amazon EC2 排定的事件運作狀態檢查執行個體失敗,而且運作狀況不佳。
-
如何解決?
如需如何疑難排解此問題的相關資訊,請參閱執行個體的排程事件。
看得見 NoCorrespondingInstanceErrors
-
發生了什麼事?
AWS ParallelCluster 找不到支援節點的執行個體。這些節點可能在引導操作期間自我終止。 SlurmQueues/CustomActions/OnNodeStart| OnNodeConfigured腳本,或網絡錯誤可能產生
NoCorrespondingInstanceErrors
。 -
如何解決?
如需其他詳細資訊,請檢查計算節點的。
/var/log/cloud-init-output.log
查看運算叢集閒置時間圖表
看到明顯長於「閒置時間縮減」臨界值的 MaxDynamicNodeIdleTime
-
發生了什麼事?
您的執行個體未正確終止。
MaxDynamicNodeIdleTime
顯示由 Amazon EC2 執行個體支援的動態節點閒置時間上限 (以秒為單位)。「閒置時間縮減」臨界值衍生自叢集配ScaledownIdletime置參數。當計算節點閒置超過「閒置時間縮減」秒數時,請關閉節點的電Slurm源並 AWS ParallelCluster 終止支援執行個體。在這種情況下,有些東西阻止實例終止。 -
如何解決?
如需有關此問題的詳細資訊,請參閱取代、終止或關閉有問題的執行個體和節點中的對擴展問題進行故障診斷。