Metti in quarantena, sostituisci o riavvia manualmente un nodo - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Metti in quarantena, sostituisci o riavvia manualmente un nodo

Scopri come mettere in quarantena, sostituire e riavviare manualmente un nodo difettoso in SageMaker HyperPod cluster orchestrati con Amazon. EKS

Per mettere in quarantena un nodo e forzare l'eliminazione di un training pod

kubectl cordon <node-name>

Dopo la quarantena, espulsione forzata del Pod. Ciò è utile quando vedi che un pod è bloccato nella terminazione per più di 30 minuti o kubectl describe pod mostra «Il nodo non è pronto» in Eventi

kubectl delete pods <pod-name> --grace-period=0 --force

Per sostituire un nodo

Etichetta il nodo con cui sostituirlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement, che attiva il SageMaker HyperPod Ripristino automatico dei nodi. Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l'aggiornamento del cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement

Per riavviare un nodo

Etichetta il nodo con cui riavviaresagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot, che attiva il. SageMaker HyperPod Ripristino automatico dei nodi Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l'aggiornamento del cluster.

kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot

Dopo aver applicato UnschedulablePendingReboot le etichette UnschedulablePendingReplacement o, dovresti essere in grado di vedere che il nodo è terminato o riavviato in pochi minuti.