기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
노드를 수동으로 격리, 교체 또는 재부팅합니다.
Amazon과 오케스트레이션된 SageMaker HyperPod 클러스터에서 결함이 있는 노드를 수동으로 격리, 교체 및 재부팅하는 방법을 알아봅니다. EKS
노드를 격리하고 트레이닝 포드를 강제 삭제하려면
kubectl cordon
<node-name>
격리 후에는 파드를 강제로 꺼냅니다. 이는 파드가 30분 이상 종료 상태로 멈추거나 이벤트에 '노드가 준비되지 않았음'이라고 kubectl describe pod
표시될 때 유용하다.
kubectl delete pods
<pod-name>
--grace-period=0 --force
노드 교체하기
교체할 노드에 레이블을 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
지정하면 가 트리거됩니다. SageMaker HyperPod 자동 노드 복구 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
노드를 재부팅하려면
재부팅할 노드에 레이블을 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
지정하면 가 트리거됩니다. SageMaker HyperPod 자동 노드 복구 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
UnschedulablePendingReplacement
레이블이 UnschedulablePendingReboot
적용되고 나면 몇 분 안에 노드가 종료되거나 재부팅되는 것을 확인할 수 있을 것입니다.