本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自動節點復原
叢集建立或更新期間,叢集管理員使用者可以選取 (建議) 和None
叢集層級之間的節點 Automatic
(執行個體) 復原選項。如果設定為Automatic
,則會自動 SageMaker HyperPod 重新啟動或取代故障節點。
重要
我們建議您設定Automatic
選項。
當從健康狀態監視代理程式、基本健全狀況檢查和深度健全狀況檢查中發現問題時,會執行自動節點復原。如果設為None
,健全狀況監控代理程式會在偵測到錯誤時標示執行個體,但不會在受影響的節點上自動啟動任何修復或復原動作。不建議使用此選項。