疑難排解叢集健康度 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解叢集健康度

從 3.6.0 AWS ParallelCluster 版開始,叢集運作狀態指標會新增至 AWS ParallelCluster Amazon CloudWatch 儀表板。在以下各節中,您可以瞭解儀表板健全狀況指標,以及疑難排解和解決問題時可採取的動作。

查看執行處理啟動設定錯誤

如果您在圖表中看到非零值,則Instance Provisioning Errors表示用於支援 slurm 節點的 Amazon EC2 執行個體無法在或 API 上啟動。CreateFleet RunInstance

看得見 IAMPolicyErrors

  • 發生了什麼事?

    許多執行個體無法啟動,這是因為權限不足且具有錯誤碼的原因UnauthorizedOperation

  • 如何解決?

    如果您已設定自訂InstanceRoleInstanceProfile,請檢查您的 IAM 政策,並確認您使用的是正確的登入資料。

    檢查clustermgtd文件中的靜態節點錯誤詳細信息。檢查slurm_resume.log文件中的動態節點錯誤詳細信息。使用詳細資料進一步瞭解必須新增的遺失權限。

看得見 VcpuLimitErrors

  • 發生了什麼事?

    AWS ParallelCluster 無法啟動執行個體,因為它達到您 AWS 帳戶 針對叢集運算節點設定的特定 Amazon EC2 執行個體類型的 vCPU 限制。

  • 如何解決?

    檢查clustermgtd檔案中是否有靜態節點的VcpuLimitExceeded錯誤,並簽入slurm_resume.log檔案中的動態節點以取得其他詳細資料。若要解決此問題,您可以要求提高 vCPU 限制。如需有關如何檢視目前限制和請求新限制的詳細資訊,請參閱 Amazon 彈性運算雲端 Linux 執行個體使用者指南中的 Amazon 彈性運算雲端服務配額

看得見 VolumeLimitErrors

  • 發生了什麼事?

    您已達到您的 Amazon EBS 磁碟區限制 AWS 帳戶,且 AWS ParallelCluster 無法使用錯誤碼InsufficientVolumeCapacityVolumeLimitExceeded啟動執行個體。

  • 如何解決?

    檢查clustermgtd檔案是否有靜態節點,並檢查slurm_resume.log檔案是否有動態節點,以取得額外的磁碟區限制詳細資訊。若要解決此問題,您可以使用不同的磁碟區 AWS 區域、清理現有磁碟區,或聯絡 Sup AWS port 中心提交要求以提高 Amazon EBS 磁碟區限制。

看得見 InsufficientCapacityErrors

OtherInstanceLaunchFailures

  • 發生了什麼事?

    用於支援運算節點的 Amazon EC2 執行個體無法使用CreateFleetRunInstance API 啟動。

  • 如何解決?

    檢查clustermgtd文件中的靜態節點,並檢查slurm_resume.log文件中的動態節點以獲取錯誤詳細信息。

查看狀態不良的執行個體錯誤圖表

看得見 InstanceBootstrapTimeoutError

  • 發生了什麼事?

    執行個體無法在 resume_timeout (針對動態節點) 或 node_replacement_timeout (針對靜態節點) 內加入叢集。如果網路未正確設定運算節點,則可能會發生這種情況,或者如果在運算節點上執行的自訂指令碼花費太長時間才能完成,則可能會發生這種情況。

  • 如何解決?

    對於動態節點,請檢查 clustermgtd log (/var/log/parallelcluster/clustermgtd) 是否有計算節點 IP 位址和錯誤,例如:

    Node bootstrap error: Resume timeout expires for node

    對於靜態節點,請檢查 clustermgtd log (/var/log/parallelcluster/clustermgtd) 中的計算節點 IP 位址和錯誤,如下所示:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    如需其他詳細資訊,請檢查/var/log/cloud-init-output.log檔案是否有錯誤。您可以從clustermgtdslurm_resume記錄檔擷取有問題的計算節點 IP 位址。

看得見 EC2HealthCheckErrors

看得見 ScheduledEventHealthCheckErrors

  • 發生了什麼事?

    Amazon EC2 排定的事件運作狀態檢查執行個體失敗,而且運作狀況不佳。

  • 如何解決?

    如需如何疑難排解此問題的相關資訊,請參閱執行個體的排程事件

看得見 NoCorrespondingInstanceErrors

  • 發生了什麼事?

    AWS ParallelCluster 找不到支援節點的執行個體。這些節點可能在引導操作期間自我終止。 SlurmQueues/CustomActions/OnNodeStart| OnNodeConfigured腳本,或網絡錯誤可能產生NoCorrespondingInstanceErrors

  • 如何解決?

    如需其他詳細資訊,請檢查計算節點的。/var/log/cloud-init-output.log

查看運算叢集閒置時間圖表

看到明顯長於「閒置時間縮減」臨界值的 MaxDynamicNodeIdleTime

  • 發生了什麼事?

    您的執行個體未正確終止。 MaxDynamicNodeIdleTime顯示由 Amazon EC2 執行個體支援的動態節點閒置時間上限 (以秒為單位)。「閒置時間縮減」臨界值衍生自叢集配ScaledownIdletime置參數。當計算節點閒置超過「閒置時間縮減」秒數時,請關閉節點的電Slurm源並 AWS ParallelCluster 終止支援執行個體。在這種情況下,有些東西阻止實例終止。

  • 如何解決?

    如需有關此問題的詳細資訊,請參閱取代、終止或關閉有問題的執行個體和節點中的對擴展問題進行故障診斷