本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
自動節點復原
在叢集建立或更新期間,叢集管理員使用者可以在叢集層級選取 (建議) 和 None
之間的節點 Automatic
(執行個體) 復原選項。如果設定為 Automatic
,會自動 SageMaker HyperPod 重新啟動或取代故障節點。
重要
建議您設定 Automatic
選項。
從運作狀態監控代理程式、基本運作狀態檢查和深度運作狀態檢查發現問題時,自動節點復原就會執行。如果設定為 None
,運作狀態監控代理程式會在偵測到故障時標記執行個體,但不會自動啟動受影響節點上的任何修復或復原動作。不建議使用此選項。