Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cómo poner en cuarentena, reemplazar o reiniciar manualmente un nodo
Aprenda a poner en cuarentena, reemplazar y reiniciar manualmente un nodo defectuoso en los clústeres de SageMaker HyperPod orquestados con Amazon EKS.
Cómo poner en cuarentena un nodo y forzar la eliminación de un pod de entrenamiento
kubectl cordon
<node-name>
Tras la cuarentena, fuerce la expulsión del pod. Esto es útil cuando un pod se queda atascado en la terminación durante más de 30 minutos o kubectl describe pod
muestra El nodo no está listo en Eventos.
kubectl delete pods
<pod-name>
--grace-period=0 --force
Reemplazo de un nodo
Etiquete el nodo que desea reemplazar con sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
, lo que desencadena la Recuperación automática de nodos de SageMaker HyperPod. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Reinicio de un nodo
Etiquete el nodo que desea reiniciar con sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
, lo que desencadena la Recuperación automática de nodos de SageMaker HyperPod. Tenga en cuenta que también debe activar la recuperación automática de nodos durante la creación o actualización del clúster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Una vez aplicadas las etiquetas UnschedulablePendingReplacement
o UnschedulablePendingReboot
, debería ver si el nodo se ha terminado o si se reinicia en unos minutos.