本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
嘗試建立叢集
使用 3.5.0 版及更新 AWS ParallelCluster 版本建立叢集時,如果叢集建立失敗,且 --rollback-on-failure
設定為 false
,請使用 pcluster describe-clusterCLI命令取得狀態和失敗資訊。在此情況下,pcluster describe-cluster
輸出clusterStatus
的預期值為 CREATE_FAILED
。檢查輸出中的 failures
區段以尋找 failureCode
和 failureReason
。然後,在下一節中,尋找其他故障診斷說明failureCode
的相符項目。如需詳細資訊,請參閱pcluster describe-cluster。
在下列各節中,我們建議您檢查 /var/log/cfn-init.log
和 /var/log/chef-client.log
檔案等主機節點上的日誌。如需 AWS ParallelCluster 日誌以及如何檢視它們的詳細資訊,請參閱 用於偵錯的金鑰日誌和 擷取和保留記錄。
如果您沒有 failureCode
,請導覽至 AWS CloudFormation 主控台以檢視叢集堆疊。檢查 Status Reason
或其他 資源上的 HeadNodeWaitCondition
或 故障,以尋找其他故障詳細資訊。如需詳細資訊,請參閱檢視 上的 AWS CloudFormation 事件 CREATE_FAILED。檢查主機節點上的 /var/log/cfn-init.log
和 /var/log/chef-client.log
檔案。
failureCode
是 OnNodeConfiguredExecutionFailure
-
為什麼失敗?
您在 組態
OnNodeConfigured
的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法執行。 -
如何解決?
檢查
/var/log/cfn-init.log
檔案以進一步了解故障,以及如何在自訂指令碼中修正問題。接近此日誌結尾時,您可能會在Running command runpostinstall
訊息後看到與OnNodeConfigured
指令碼相關的執行資訊。
failureCode
是 OnNodeConfiguredDownloadFailure
-
為什麼失敗?
您在 組態
OnNodeConfigured
的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法下載。 -
如何解決?
請確定 URL 有效,且存取權已正確設定。如需自訂引導指令碼組態的詳細資訊,請參閱 自訂引導動作。
檢查
/var/log/cfn-init.log
檔案。在此日誌結尾附近,您可能會在Running command runpostinstall
訊息之後看到與OnNodeConfigured
指令碼處理相關的執行資訊,包括下載。
failureCode
是 OnNodeConfiguredFailure
-
為什麼失敗?
您在 組態
OnNodeConfigured
的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,在叢集部署中使用自訂指令碼失敗。無法判斷直接原因,需要額外調查。 -
如何解決?
檢查
/var/log/cfn-init.log
檔案。接近此日誌結尾時,您可能會在Running command runpostinstall
訊息後看到與OnNodeConfigured
指令碼處理相關的執行資訊。
failureCode
是 OnNodeStartExecutionFailure
-
為什麼失敗?
您在 組態
OnNodeStart
的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法執行。 -
如何解決?
檢查
/var/log/cfn-init.log
檔案以進一步了解故障,以及如何在自訂指令碼中修正問題。接近此日誌結尾時,您可能會在Running command runpreinstall
訊息後看到與OnNodeStart
指令碼相關的執行資訊。
failureCode
是 OnNodeStartDownloadFailure
-
為什麼失敗?
您在 組態
OnNodeStart
的主機節點區段的 中提供自訂指令碼,以建立叢集。不過,自訂指令碼無法下載。 -
如何解決?
請確定 URL 有效,且存取權已正確設定。如需自訂引導指令碼組態的詳細資訊,請參閱 自訂引導動作。
檢查
/var/log/cfn-init.log
檔案。在此日誌結尾附近,您可能會在Running command runpreinstall
訊息之後看到與OnNodeStart
指令碼處理相關的執行資訊,包括下載。
failureCode
是 OnNodeStartFailure
-
為什麼失敗?
您在 組態中主機節點區段
OnNodeStart
的 中提供自訂指令碼,以建立叢集。不過,在叢集部署中使用自訂指令碼失敗。無法判斷直接原因,需要額外調查。 -
如何解決?
檢查
/var/log/cfn-init.log
檔案。接近此日誌結尾時,您可能會在Running command runpreinstall
訊息後看到與OnNodeStart
指令碼處理相關的執行資訊。
failureCode
是 EbsMountFailure
-
為什麼失敗?
叢集組態中定義的EBS磁碟區無法掛載。
-
如何解決?
檢查
/var/log/chef-client.log
檔案以取得失敗詳細資訊。
failureCode
是 EfsMountFailure
-
為什麼失敗?
叢集組態中定義的 Amazon EFS磁碟區無法掛載。
-
如何解決?
如果您定義了現有的 Amazon EFS 檔案系統,請確定叢集和檔案系統之間允許流量。如需詳細資訊,請參閱 SharedStorage / EfsSettings / FileSystemId。
檢查
/var/log/chef-client.log
檔案以取得失敗詳細資訊。
failureCode
是 FsxMountFailure
-
為什麼失敗?
叢集組態中定義的 Amazon FSx 檔案系統無法掛載。
-
如何解決?
如果您定義了現有的 Amazon FSx 檔案系統,請確定叢集和檔案系統之間允許流量。如需詳細資訊,請參閱 SharedStorage / FsxLustreSettings / FileSystemId。
檢查
/var/log/chef-client.log
檔案以取得失敗詳細資訊。
failureCode
是 RaidMountFailure
-
為什麼失敗?
叢集組態中定義的RAID磁碟區無法掛載。
-
如何解決?
檢查
/var/log/chef-client.log
檔案以取得失敗詳細資訊。
failureCode
是 AmiVersionMismatch
-
為什麼失敗?
用於建立自訂的 AWS ParallelCluster 版本與用於設定叢集的 AWS ParallelCluster 版本AMI不同。在 CloudFormation 主控台中,檢視叢集 CloudFormation 堆疊詳細資訊,並檢查
Status Reason
以取得 AWS ParallelCluster 版本和HeadNodeWaitCondition
的其他詳細資訊AMI。如需詳細資訊,請參閱檢視 上的 AWS CloudFormation 事件 CREATE_FAILED。 -
如何解決?
確定用於建立自訂的 AWS ParallelCluster 版本AMI與用於設定叢集的 AWS ParallelCluster 版本相同。您可以變更自訂AMI版本或
pcluster
CLI版本,使它們相同。
failureCode
是 InvalidAmi
-
為什麼失敗?
自訂AMI無效,因為它不是使用 建置的 AWS ParallelCluster。
-
如何解決?
使用
pcluster build-image
命令建立 AMI,方法是製作AMI父系映像。如需詳細資訊,請參閱pcluster build-image。
failureCode
HeadNodeBootstrapFailure
為 failureReason
,無法設定主機節點。
-
為什麼失敗?
無法判斷直接原因,需要額外調查。例如,叢集可能處於受保護狀態,這可能是由於無法佈建靜態運算機群所致。
-
如何解決?
檢查
/var/log/chef-client.log.
檔案以取得失敗詳細資訊。注意
如果您看到
RuntimeError
例外狀況Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning
,則叢集處於受保護狀態。如需詳細資訊,請參閱如何調試受保護模式。
failureCode
為 HeadNodeBootstrapFailure
,failureReason
叢集建立逾時。
-
為什麼失敗?
根據預設,叢集建立有 30 分鐘的時間限制來完成。如果叢集建立未在此時間範圍內完成,則叢集建立會失敗,並出現逾時錯誤。叢集建立可能因不同原因而逾時。例如,逾時失敗可能是由於主機節點建立失敗、網路問題、在主機節點中執行時間過長的自訂指令碼、在運算節點中執行的自訂指令碼中的錯誤,或運算節點佈建的等待時間過長所造成。無法判斷直接原因,需要額外調查。
-
如何解決?
檢查
/var/log/cfn-init.log
和/var/log/chef-client.log
檔案以取得失敗詳細資訊。如需日誌以及如何取得日誌的詳細資訊 AWS ParallelCluster ,請參閱 用於偵錯的金鑰日誌和 擷取和保留記錄。您可能會在這些日誌中發現以下內容。
-
接近
Waiting for static fleet capacity provisioning
結尾看到chef-client.log
這表示等待靜態節點啟動時,叢集建立逾時。如需詳細資訊,請參閱看到運算節點初始化中的錯誤。
-
在 結尾看到
OnNodeConfigured
或OnNodeStart
標頭節點指令碼尚未完成cfn-init.log
這表示
OnNodeConfigured
或OnNodeStart
自訂指令碼需要很長時間才能執行,並導致逾時錯誤。檢查您的自訂指令碼是否有可能導致其長時間執行的問題。如果您的自訂指令碼需要很長的時間才能執行,請考慮將DevSettings
區段新增至叢集組態檔案來變更逾時限制,如下列範例所示:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
-
找不到日誌,或無法成功建立主節點
頭部節點可能無法成功建立,也找不到日誌。在 CloudFormation 主控台中,檢視叢集堆疊詳細資訊,以檢查其他失敗詳細資訊。
-
failureCode
HeadNodeBootstrapFailure
具有failureReason
無法啟動主節點的 。
-
為什麼失敗?
無法判斷直接原因,需要額外調查。
-
如何解決?
檢查
/var/log/cfn-init.log
和/var/log/chef-client.log
檔案。
failureCode
是 ResourceCreationFailure
-
為什麼失敗?
在叢集建立過程中,某些資源的建立失敗。故障可能因為各種原因而發生。例如,資源建立失敗可能是由容量問題或設定錯誤的IAM政策所造成。
-
如何解決?
在 CloudFormation 主控台中,檢視叢集堆疊,以檢查其他資源建立失敗詳細資訊。
failureCode
是 ClusterCreationFailure
-
為什麼失敗?
無法判斷直接原因,需要額外調查。
-
如何解決?
在 CloudFormation 主控台中,檢視叢集堆疊,並檢查
Status Reason
以取得HeadNodeWaitCondition
其他失敗詳細資訊。檢查
/var/log/cfn-init.log
和/var/log/chef-client.log
檔案。
在 CloudFormation 堆疊WaitCondition timed out...
中查看
如需詳細資訊,請參閱failureCode 為 HeadNodeBootstrapFailure ,failureReason叢集建立逾時。。
在 CloudFormation 堆疊Resource creation cancelled
中查看
如需詳細資訊,請參閱failureCode 是 ResourceCreationFailure。
在 AWS CloudFormation 堆疊中看到 Failed to run cfn-init...
或其他錯誤
如需其他失敗詳細資訊,/var/log/chef-client.log
請參閱 /var/log/cfn-init.log
和 。
看到chef-client.log
結尾為 INFO: Waiting for static fleet capacity provisioning
這與等待靜態節點開機時的叢集建立逾時有關。如需詳細資訊,請參閱看到運算節點初始化中的錯誤。
查看 Failed to run preinstall or postinstall in cfn-init.log
您在叢集組態HeadNode
區段中有 OnNodeConfigured
或 OnNodeStart
指令碼。指令碼無法正常運作。檢查 /var/log/cfn-init.log
檔案以取得自訂指令碼錯誤詳細資訊。
在 CloudFormation 堆疊This AMI was created with xxx, but is trying to be used with xxx...
中查看
如需詳細資訊,請參閱failureCode 是 AmiVersionMismatch。
在 CloudFormation 堆疊This AMI was not baked by AWS ParallelCluster...
中查看
如需詳細資訊,請參閱failureCode 是 InvalidAmi。
查看pcluster create-cluster
命令無法在本機執行
如需失敗詳細資訊~/.parallelcluster/pcluster-cli.log
,請參閱本機檔案系統中的 。
其他支援
請遵循 中的疑難排解指引叢集部署問題的疑難排解。
檢查 上的GitHub 已知問題