自動節點復原 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自動節點復原

在叢集建立或更新期間,叢集管理員使用者可以在叢集層級選取 (建議) 和 None 之間的節點 Automatic(執行個體) 復原選項。如果設定為 Automatic,會自動 SageMaker HyperPod 重新啟動或取代故障節點。

重要

建議您設定 Automatic選項。

從運作狀態監控代理程式、基本運作狀態檢查和深度運作狀態檢查發現問題時,自動節點復原就會執行。如果設定為 None,運作狀態監控代理程式會在偵測到故障時標記執行個體,但不會自動啟動受影響節點上的任何修復或復原動作。不建議使用此選項。