嘗試建立叢集 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

嘗試建立叢集

使用 3.5.0 版及更新 AWS ParallelCluster 版本建立叢集時,如果叢集建立失敗,且 --rollback-on-failure 設定為 false,請使用 pcluster describe-clusterCLI命令取得狀態和失敗資訊。在此情況下,pcluster describe-cluster輸出clusterStatus的預期值為 CREATE_FAILED。檢查輸出中的 failures區段以尋找 failureCodefailureReason。然後,在下一節中,尋找其他故障診斷說明failureCode的相符項目。如需詳細資訊,請參閱pcluster describe-cluster

在下列各節中,我們建議您檢查 /var/log/cfn-init.log/var/log/chef-client.log 檔案等主機節點上的日誌。如需 AWS ParallelCluster 日誌以及如何檢視它們的詳細資訊,請參閱 用於偵錯的金鑰日誌擷取和保留記錄

如果您沒有 failureCode,請導覽至 AWS CloudFormation 主控台以檢視叢集堆疊。檢查 Status Reason 或其他 資源上的 HeadNodeWaitCondition或 故障,以尋找其他故障詳細資訊。如需詳細資訊,請參閱檢視 上的 AWS CloudFormation 事件 CREATE_FAILED。檢查主機節點上的 /var/log/cfn-init.log/var/log/chef-client.log 檔案。

failureCodeOnNodeConfiguredExecutionFailure

  • 為什麼失敗?

    您在 組態OnNodeConfigured的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法執行。

  • 如何解決?

    檢查 /var/log/cfn-init.log 檔案以進一步了解故障,以及如何在自訂指令碼中修正問題。接近此日誌結尾時,您可能會在Running command runpostinstall訊息後看到與OnNodeConfigured指令碼相關的執行資訊。

failureCodeOnNodeConfiguredDownloadFailure

  • 為什麼失敗?

    您在 組態OnNodeConfigured的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法下載。

  • 如何解決?

    請確定 URL 有效,且存取權已正確設定。如需自訂引導指令碼組態的詳細資訊,請參閱 自訂引導動作

    檢查 /var/log/cfn-init.log檔案。在此日誌結尾附近,您可能會在Running command runpostinstall訊息之後看到與OnNodeConfigured指令碼處理相關的執行資訊,包括下載。

failureCodeOnNodeConfiguredFailure

  • 為什麼失敗?

    您在 組態OnNodeConfigured的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,在叢集部署中使用自訂指令碼失敗。無法判斷直接原因,需要額外調查。

  • 如何解決?

    檢查 /var/log/cfn-init.log檔案。接近此日誌結尾時,您可能會在Running command runpostinstall訊息後看到與OnNodeConfigured指令碼處理相關的執行資訊。

failureCodeOnNodeStartExecutionFailure

  • 為什麼失敗?

    您在 組態OnNodeStart的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法執行。

  • 如何解決?

    檢查 /var/log/cfn-init.log 檔案以進一步了解故障,以及如何在自訂指令碼中修正問題。接近此日誌結尾時,您可能會在Running command runpreinstall訊息後看到與OnNodeStart指令碼相關的執行資訊。

failureCodeOnNodeStartDownloadFailure

  • 為什麼失敗?

    您在 組態OnNodeStart的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法下載。

  • 如何解決?

    請確定 URL 有效,且存取權已正確設定。如需自訂引導指令碼組態的詳細資訊,請參閱 自訂引導動作

    檢查 /var/log/cfn-init.log檔案。在此日誌結尾附近,您可能會在Running command runpreinstall訊息之後看到與OnNodeStart指令碼處理相關的執行資訊,包括下載。

failureCodeOnNodeStartFailure

  • 為什麼失敗?

    您在 組態中主機節點區段OnNodeStart的 中提供自訂指令碼,以建立叢集。不過,在叢集部署中使用自訂指令碼失敗。無法判斷直接原因,需要額外調查。

  • 如何解決?

    檢查 /var/log/cfn-init.log檔案。接近此日誌結尾時,您可能會在Running command runpreinstall訊息後看到與OnNodeStart指令碼處理相關的執行資訊。

failureCodeEbsMountFailure

  • 為什麼失敗?

    叢集組態中定義的EBS磁碟區無法掛載。

  • 如何解決?

    檢查 /var/log/chef-client.log 檔案以取得失敗詳細資訊。

failureCodeEfsMountFailure

  • 為什麼失敗?

    叢集組態中定義的 Amazon EFS磁碟區無法掛載。

  • 如何解決?

    如果您定義了現有的 Amazon EFS 檔案系統,請確定叢集和檔案系統之間允許流量。如需詳細資訊,請參閱 SharedStorage / EfsSettings / FileSystemId

    檢查 /var/log/chef-client.log 檔案以取得失敗詳細資訊。

failureCodeFsxMountFailure

  • 為什麼失敗?

    叢集組態中定義的 Amazon FSx 檔案系統無法掛載。

  • 如何解決?

    如果您定義了現有的 Amazon FSx 檔案系統,請確定叢集和檔案系統之間允許流量。如需詳細資訊,請參閱 SharedStorage / FsxLustreSettings / FileSystemId

    檢查 /var/log/chef-client.log 檔案以取得失敗詳細資訊。

failureCodeRaidMountFailure

  • 為什麼失敗?

    叢集組態中定義的RAID磁碟區無法掛載。

  • 如何解決?

    檢查 /var/log/chef-client.log 檔案以取得失敗詳細資訊。

failureCodeAmiVersionMismatch

  • 為什麼失敗?

    用於建立自訂的 AWS ParallelCluster 版本與用於設定叢集的 AWS ParallelCluster 版本AMI不同。在 CloudFormation 主控台中,檢視叢集 CloudFormation 堆疊詳細資訊,並檢查 Status Reason 以取得 AWS ParallelCluster 版本和 HeadNodeWaitCondition的其他詳細資訊AMI。如需詳細資訊,請參閱檢視 上的 AWS CloudFormation 事件 CREATE_FAILED

  • 如何解決?

    確定用於建立自訂的 AWS ParallelCluster 版本AMI與用於設定叢集的 AWS ParallelCluster 版本相同。您可以變更自訂AMI版本或pclusterCLI版本,使它們相同。

failureCodeInvalidAmi

  • 為什麼失敗?

    自訂AMI無效,因為它不是使用 建置的 AWS ParallelCluster。

  • 如何解決?

    使用 pcluster build-image命令建立 AMI,方法是製作AMI父系映像。如需詳細資訊,請參閱pcluster build-image

failureCodeHeadNodeBootstrapFailurefailureReason ,無法設定主機節點。

  • 為什麼失敗?

    無法判斷直接原因,需要額外調查。例如,叢集可能處於受保護狀態,這可能是由於無法佈建靜態運算機群所致。

  • 如何解決?

    檢查 /var/log/chef-client.log. 檔案以取得失敗詳細資訊。

    注意

    如果您看到RuntimeError例外狀況 Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning,則叢集處於受保護狀態。如需詳細資訊,請參閱如何調試受保護模式

failureCodeHeadNodeBootstrapFailurefailureReason叢集建立逾時。

  • 為什麼失敗?

    根據預設,叢集建立有 30 分鐘的時間限制來完成。如果叢集建立未在此時間範圍內完成,則叢集建立會失敗,並出現逾時錯誤。叢集建立可能因不同原因而逾時。例如,逾時失敗可能是由於主機節點建立失敗、網路問題、在主機節點中執行時間過長的自訂指令碼、在運算節點中執行的自訂指令碼中的錯誤,或運算節點佈建的等待時間過長所造成。無法判斷直接原因,需要額外調查。

  • 如何解決?

    檢查 /var/log/cfn-init.log/var/log/chef-client.log 檔案以取得失敗詳細資訊。如需日誌以及如何取得日誌的詳細資訊 AWS ParallelCluster ,請參閱 用於偵錯的金鑰日誌擷取和保留記錄

    您可能會在這些日誌中發現以下內容。

    • 接近 Waiting for static fleet capacity provisioning 結尾看到 chef-client.log

      這表示等待靜態節點啟動時,叢集建立逾時。如需詳細資訊,請參閱看到運算節點初始化中的錯誤

    • 在 結尾看到 OnNodeConfiguredOnNodeStart 標頭節點指令碼尚未完成 cfn-init.log

      這表示 OnNodeConfiguredOnNodeStart 自訂指令碼需要很長時間才能執行,並導致逾時錯誤。檢查您的自訂指令碼是否有可能導致其長時間執行的問題。如果您的自訂指令碼需要很長的時間才能執行,請考慮將DevSettings區段新增至叢集組態檔案來變更逾時限制,如下列範例所示:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • 找不到日誌,或無法成功建立主節點

      頭部節點可能無法成功建立,也找不到日誌。在 CloudFormation 主控台中,檢視叢集堆疊詳細資訊,以檢查其他失敗詳細資訊。

failureCodeHeadNodeBootstrapFailure具有failureReason無法啟動主節點的 。

  • 為什麼失敗?

    無法判斷直接原因,需要額外調查。

  • 如何解決?

    檢查 /var/log/cfn-init.log/var/log/chef-client.log 檔案。

failureCodeResourceCreationFailure

  • 為什麼失敗?

    在叢集建立過程中,某些資源的建立失敗。故障可能因為各種原因而發生。例如,資源建立失敗可能是由容量問題或設定錯誤的IAM政策所造成。

  • 如何解決?

    在 CloudFormation 主控台中,檢視叢集堆疊,以檢查其他資源建立失敗詳細資訊。

failureCodeClusterCreationFailure

  • 為什麼失敗?

    無法判斷直接原因,需要額外調查。

  • 如何解決?

    在 CloudFormation 主控台中,檢視叢集堆疊,並檢查 Status Reason 以取得HeadNodeWaitCondition其他失敗詳細資訊。

    檢查 /var/log/cfn-init.log/var/log/chef-client.log 檔案。

在 CloudFormation 堆疊WaitCondition timed out...中查看

如需詳細資訊,請參閱failureCode 為 HeadNodeBootstrapFailure ,failureReason叢集建立逾時。

在 CloudFormation 堆疊Resource creation cancelled中查看

如需詳細資訊,請參閱failureCode 是 ResourceCreationFailure

在 AWS CloudFormation 堆疊中看到 Failed to run cfn-init...或其他錯誤

如需其他失敗詳細資訊,/var/log/chef-client.log請參閱 /var/log/cfn-init.log和 。

看到chef-client.log結尾為 INFO: Waiting for static fleet capacity provisioning

這與等待靜態節點開機時的叢集建立逾時有關。如需詳細資訊,請參閱看到運算節點初始化中的錯誤

查看 Failed to run preinstall or postinstall in cfn-init.log

您在叢集組態HeadNode區段中有 OnNodeConfiguredOnNodeStart指令碼。指令碼無法正常運作。檢查 /var/log/cfn-init.log 檔案以取得自訂指令碼錯誤詳細資訊。

在 CloudFormation 堆疊This AMI was created with xxx, but is trying to be used with xxx...中查看

如需詳細資訊,請參閱failureCode 是 AmiVersionMismatch

在 CloudFormation 堆疊This AMI was not baked by AWS ParallelCluster...中查看

如需詳細資訊,請參閱failureCode 是 InvalidAmi

查看pcluster create-cluster命令無法在本機執行

如需失敗詳細資訊~/.parallelcluster/pcluster-cli.log,請參閱本機檔案系統中的 。

其他支援

請遵循 中的疑難排解指引叢集部署問題的疑難排解

檢查 上的GitHub 已知問題是否涵蓋您的案例 AWS ParallelCluster GitHub。