對cfn-hup未執行的叢集更新逾時進行故障診斷 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

cfn-hup未執行的叢集更新逾時進行故障診斷

cfn-hup 協助程式是一種常駐程式,可偵測資源中繼資料的變更,並在偵測到變更時執行使用者指定的動作。這是您透過 UpdateStackAPI動作在執行中的 Amazon EC2執行個體上進行組態更新的方式。

目前cfn-hup常駐程式是由 啟動supervisord。但在啟動後,cfn-hup程序會與supervisord控制項分離。如果cfn-hup魔族被外部發動者殺死,則不會自動重新啟動。如果 cfn-hup 未執行,則在叢集更新期間, CloudFormation 堆疊會如預期啟動更新程序,但不會在主機節點上啟用更新程序,且堆疊最終會進入逾時狀態。從叢集日誌 中/var/log/chef-client,您可以看到更新配方從未叫用。

檢查並在失敗cfn-hup時重新啟動

  1. 在主機節點上,檢查是否cfn-hup正在執行:

    $ ps aux | grep cfn-hup
  2. 檢查主機節點/var/log/supervisord.log上的cfn-hup日誌 /var/log/cfn-hup.log和 。

  3. 如果 cfn-hup 未執行,請嘗試執行以重新啟動它:

    $ sudo /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/supervisorctl start cfn-hup