手动隔离、替换或重启节点 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

手动隔离、替换或重启节点

了解如何在 Amazon 编排的 SageMaker HyperPod集群中手动隔离、替换和重启故障节点。EKS

隔离节点并强制删除训练舱

kubectl cordon <node-name>

隔离后,强制弹出 Pod。当你看到 Pod 处于终止状态超过 30 分钟或在 Events 中kubectl describe pod显示 “节点未就绪” 时,这很有用

kubectl delete pods <pod-name> --grace-period=0 --force

替换节点

标记要替换的节点sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement,这会触发 SageMaker HyperPod 自动恢复节点。请注意,在创建或更新集群期间,您还需要激活自动节点恢复。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

重启节点

标记要重启的节点sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot,这会触发 SageMaker HyperPod 自动恢复节点。请注意,在创建或更新集群期间,您还需要激活自动节点恢复。

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

应用标签UnschedulablePendingReplacementUnschedulablePendingReboot后,您应该能够在几分钟内看到节点已终止或重新启动。