노드를 수동으로 격리, 교체 또는
Amazon EKS로 오케스트레이션된 SageMaker HyperPod 클러스터에서 결함이 있는 노드를 수동으로 격리, 교체 및 재부팅하는 방법을 알아봅니다.
노드를 격리하고 훈련 포드를 강제 삭제하려면
kubectl cordon
<node-name>
격리 후 포드를 강제로 배출합니다. 포드가 30분 이상 종료되지 않았거나 이벤트에서 '노드가 준비되지 않음'을 kubectl describe pod
가 표시할 때 유용합니다.
kubectl delete pods
<pod-name>
--grace-period=0 --force
노드를 교체하려면
SageMaker HyperPod 자동 노드 복구를 트리거하는 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
로 교체할 노드에 레이블을 지정합니다. 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
디바이스를 재부팅하려면
SageMaker HyperPod 자동 노드 복구를 트리거하며 재부팅할 노드에 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
로 레이블을 지정합니다. 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
레이블 UnschedulablePendingReplacement
또는 UnschedulablePendingReboot
가 적용된 후 몇 분 내에 노드가 종료되거나 재부팅되는 것을 확인할 수 있습니다.