本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
手动隔离、替换或重启节点
了解如何在 Amazon 编排的 SageMaker HyperPod集群中手动隔离、替换和重启故障节点。EKS
隔离节点并强制删除训练舱
kubectl cordon
<node-name>
隔离后,强制弹出 Pod。当你看到 Pod 处于终止状态超过 30 分钟或在 Events 中kubectl describe pod
显示 “节点未就绪” 时,这很有用
kubectl delete pods
<pod-name>
--grace-period=0 --force
替换节点
标记要替换的节点sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
,这会触发 SageMaker HyperPod 自动恢复节点。请注意,在创建或更新集群期间,您还需要激活自动节点恢复。
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
重启节点
标记要重启的节点sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
,这会触发 SageMaker HyperPod 自动恢复节点。请注意,在创建或更新集群期间,您还需要激活自动节点恢复。
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
应用标签UnschedulablePendingReplacement
或UnschedulablePendingReboot
后,您应该能够在几分钟内看到节点已终止或重新启动。