手動隔離、取代或重新啟動節點 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

手動隔離、取代或重新啟動節點

了解如何使用 Amazon EKS 協調的 SageMaker HyperPod叢集中手動隔離、更換和重新啟動故障節點。

隔離節點並強制刪除訓練網繭

kubectl cordon <node-name>

隔離後,強制退出 Pod。當您看到網繭停留在終止超過 30 分鐘或事件中kubectl describe pod顯示「節點未就緒」時,此功能非常有用

kubectl delete pods <pod-name> --grace-period=0 --force

取代節點

標示要取代的節點sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement,這會觸發 SageMaker HyperPod 自動節點復原. 請注意,您也需要在叢集建立或更新期間啟動自動節點復原。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

若要重新啟動節點

標記要重新啟動的節點sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot,這會觸發 SageMaker HyperPod 自動節點復原. 請注意,您也需要在叢集建立或更新期間啟動自動節點復原。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

標籤UnschedulablePendingReplacementUnschedulablePendingReboot應用後,您應該能夠看到節點已終止或在幾分鐘內重新啟動。