自動節點復原 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自動節點復原

叢集建立或更新期間,叢集管理員使用者可以選取 (建議) 和None叢集層級之間的節點 Automatic (執行個體) 復原選項。如果設定為Automatic,則會自動 SageMaker HyperPod 重新啟動或取代故障節點。

重要

我們建議您設定Automatic選項。

當從健康狀態監視代理程式、基本健全狀況檢查和深度健全狀況檢查中發現問題時,會執行自動節點復原。如果設為None,健全狀況監控代理程式會在偵測到錯誤時標示執行個體,但不會在受影響的節點上自動啟動任何修復或復原動作。不建議使用此選項。