Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Poner en cuarentena, reemplazar o reiniciar manualmente un nodo
Aprenda a poner en cuarentena, reemplazar y reiniciar manualmente un nodo defectuoso en SageMaker HyperPod clústeres organizados con AmazonEKS.
Para poner en cuarentena un nodo y forzar la eliminación de un módulo de entrenamiento
kubectl cordon
<node-name>
Tras la cuarentena, fuerza la expulsión del pod. Esto resulta útil cuando ves que un pod ha estado atascado en la terminación durante más de 30 minutos o cuando kubectl describe pod
aparece el mensaje «El nodo no está listo» en los eventos
kubectl delete pods
<pod-name>
--grace-period=0 --force
Para reemplazar un nodo
Etiquete el nodo por el que desea reemplazarlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
, lo que activa el SageMaker HyperPod Recuperación automática de nodos. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Para reiniciar un nodo
Etiquete el nodo con el que se va a reiniciarsagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
, lo que activa el SageMaker HyperPod Recuperación automática de nodos. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Una vez UnschedulablePendingReboot
colocadas las etiquetasUnschedulablePendingReplacement
, deberías poder ver que el nodo ha terminado o se ha reiniciado en unos minutos.