노드를 수동으로 격리, 교체 또는 재부팅합니다. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

노드를 수동으로 격리, 교체 또는 재부팅합니다.

Amazon과 오케스트레이션된 SageMaker HyperPod 클러스터에서 결함이 있는 노드를 수동으로 격리, 교체 및 재부팅하는 방법을 알아봅니다. EKS

노드를 격리하고 트레이닝 포드를 강제 삭제하려면

kubectl cordon <node-name>

격리 후에는 파드를 강제로 꺼냅니다. 이는 파드가 30분 이상 종료 상태로 멈추거나 이벤트에 '노드가 준비되지 않았음'이라고 kubectl describe pod 표시될 때 유용하다.

kubectl delete pods <pod-name> --grace-period=0 --force

노드 교체하기

교체할 노드에 레이블을 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement 지정하면 가 트리거됩니다. SageMaker HyperPod 자동 노드 복구 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

노드를 재부팅하려면

재부팅할 노드에 레이블을 sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot 지정하면 가 트리거됩니다. SageMaker HyperPod 자동 노드 복구 클러스터 생성 또는 업데이트 중에도 자동 노드 복구를 활성화해야 합니다.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

UnschedulablePendingReplacement레이블이 UnschedulablePendingReboot 적용되고 나면 몇 분 안에 노드가 종료되거나 재부팅되는 것을 확인할 수 있을 것입니다.