查看執行處理啟動設定錯誤圖查看狀態不良的執行個體錯誤圖表查看運算叢集閒置時間圖表

疑難排解叢集健康度

從 3.6.0 AWS ParallelCluster 版開始，叢集運作狀態指標會新增至 AWS ParallelCluster Amazon CloudWatch 儀表板。在以下各節中，您可以瞭解儀表板健全狀況指標，以及疑難排解和解決問題時可採取的動作。

主題

查看執行處理啟動設定錯誤圖
查看狀態不良的執行個體錯誤圖表
查看運算叢集閒置時間圖表

查看執行處理啟動設定錯誤圖

如果您在圖表中看到非零值，則Instance Provisioning Errors表示用於支援 slurm 節點的 Amazon EC2 執行個體無法在或 API 上啟動。CreateFleet RunInstance

看得見 `IAMPolicyErrors`

發生了什麼事？

許多執行個體無法啟動，這是因為權限不足且具有錯誤碼的原因UnauthorizedOperation。
如何解決？

如果您已設定自訂InstanceRole或 InstanceProfile，請檢查您的 IAM 政策，並確認您使用的是正確的登入資料。

檢查clustermgtd文件中的靜態節點錯誤詳細信息。檢查slurm_resume.log文件中的動態節點錯誤詳細信息。使用詳細資料進一步瞭解必須新增的遺失權限。

看得見 `VcpuLimitErrors`

發生了什麼事？

AWS ParallelCluster 無法啟動執行個體，因為它達到您 AWS 帳戶針對叢集運算節點設定的特定 Amazon EC2 執行個體類型的 vCPU 限制。
如何解決？

檢查clustermgtd檔案中是否有靜態節點的VcpuLimitExceeded錯誤，並簽入slurm_resume.log檔案中的動態節點以取得其他詳細資料。若要解決此問題，您可以要求提高 vCPU 限制。如需有關如何檢視目前限制和請求新限制的詳細資訊，請參閱 Amazon 彈性運算雲端 Linux 執行個體使用者指南中的 Amazon 彈性運算雲端服務配額。

看得見 `VolumeLimitErrors`

發生了什麼事？

您已達到您的 Amazon EBS 磁碟區限制 AWS 帳戶，且 AWS ParallelCluster 無法使用錯誤碼InsufficientVolumeCapacity或VolumeLimitExceeded啟動執行個體。
如何解決？

檢查clustermgtd檔案是否有靜態節點，並檢查slurm_resume.log檔案是否有動態節點，以取得額外的磁碟區限制詳細資訊。若要解決此問題，您可以使用不同的磁碟區 AWS 區域、清理現有磁碟區，或聯絡 Sup AWS port 中心提交要求以提高 Amazon EBS 磁碟區限制。

看得見 `InsufficientCapacityErrors`

發生了什麼事？

AWS ParallelCluster 沒有足夠的容量來啟動 Amazon EC2 執行個體來支援節點。
如何解決？

檢查clustermgtd文件中的靜態節點，並檢查slurm_resume.log文件中的動態節點以獲取容量不足的錯誤詳細信息。若要疑難排解此問題，請依照 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/的指引進行。

`OtherInstanceLaunchFailures`

發生了什麼事？

用於支援運算節點的 Amazon EC2 執行個體無法使用CreateFleet或 RunInstance API 啟動。
如何解決？

檢查clustermgtd文件中的靜態節點，並檢查slurm_resume.log文件中的動態節點以獲取錯誤詳細信息。

查看狀態不良的執行個體錯誤圖表

發生了什麼事？

已啟動數個運算執行個體，但後來終止為狀態不佳。
如何解決？

如需疑難排解狀態不良節點的詳細資訊，請參閱對非預期節點替換和終止進行故障診斷。

看得見 `InstanceBootstrapTimeoutError`

發生了什麼事？

執行個體無法在 resume_timeout (針對動態節點) 或 node_replacement_timeout (針對靜態節點) 內加入叢集。如果網路未正確設定運算節點，則可能會發生這種情況，或者如果在運算節點上執行的自訂指令碼花費太長時間才能完成，則可能會發生這種情況。
如何解決？

對於動態節點，請檢查 clustermgtd log (/var/log/parallelcluster/clustermgtd) 是否有計算節點 IP 位址和錯誤，例如：
```
Node bootstrap error: Resume timeout expires for node
```
對於靜態節點，請檢查 clustermgtd log (/var/log/parallelcluster/clustermgtd) 中的計算節點 IP 位址和錯誤，如下所示：
```
Node bootstrap error: Replacement timeout expires for node ... in replacement.
```
如需其他詳細資訊，請檢查/var/log/cloud-init-output.log檔案是否有錯誤。您可以從clustermgtd和slurm_resume記錄檔擷取有問題的計算節點 IP 位址。

看得見 `EC2HealthCheckErrors`

發生了什麼事？

執行個體無法進行 Amazon EC2 作狀態檢查。
如何解決？

如需如何疑難排解此問題的相關資訊，請參閱疑難排解執行個體狀態檢查失敗。

看得見 `ScheduledEventHealthCheckErrors`

發生了什麼事？

Amazon EC2 排定的事件運作狀態檢查執行個體失敗，而且運作狀況不佳。
如何解決？

如需如何疑難排解此問題的相關資訊，請參閱執行個體的排程事件。

看得見 `NoCorrespondingInstanceErrors`

發生了什麼事？

AWS ParallelCluster 找不到支援節點的執行個體。這些節點可能在引導操作期間自我終止。 SlurmQueues/CustomActions/OnNodeStart| OnNodeConfigured腳本，或網絡錯誤可能產生NoCorrespondingInstanceErrors。
如何解決？

如需其他詳細資訊，請檢查計算節點的。/var/log/cloud-init-output.log

查看運算叢集閒置時間圖表

看到明顯長於「閒置時間縮減」臨界值的 `MaxDynamicNodeIdleTime`

發生了什麼事？

您的執行個體未正確終止。 MaxDynamicNodeIdleTime顯示由 Amazon EC2 執行個體支援的動態節點閒置時間上限 (以秒為單位)。「閒置時間縮減」臨界值衍生自叢集配ScaledownIdletime置參數。當計算節點閒置超過「閒置時間縮減」秒數時，請關閉節點的電Slurm源並 AWS ParallelCluster 終止支援執行個體。在這種情況下，有些東西阻止實例終止。
如何解決？

如需有關此問題的詳細資訊，請參閱取代、終止或關閉有問題的執行個體和節點中的對擴展問題進行故障診斷。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

上述情境都不適用於我的情況

叢集部署問題的疑難排解

疑難排解叢集健康度

主題

查看執行處理啟動設定錯誤圖

看得見 IAMPolicyErrors

看得見 VcpuLimitErrors

看得見 VolumeLimitErrors

看得見 InsufficientCapacityErrors

OtherInstanceLaunchFailures