Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Metti in quarantena, sostituisci o riavvia manualmente un nodo
Scopri come mettere in quarantena, sostituire e riavviare manualmente un nodo difettoso in SageMaker HyperPod cluster orchestrati con Amazon EKS.
Per mettere in quarantena un nodo e forzare l'eliminazione di un training pod
kubectl cordon
<node-name>
Dopo la quarantena, espulsione forzata del Pod. Ciò è utile quando vedi che un pod è bloccato nella terminazione per più di 30 minuti o kubectl describe pod
mostra «Il nodo non è pronto» in Eventi
kubectl delete pods
<pod-name>
--grace-period=0 --force
Per sostituire un nodo
Etichetta il nodo con cui sostituirlosagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
, che attiva il SageMaker HyperPod Ripristino automatico dei nodi. Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l'aggiornamento del cluster.
kubectl label nodes
<node-name>
\ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReplacement
Per riavviare un nodo
Etichetta il nodo con cui riavviaresagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
, che attiva il. SageMaker HyperPod Ripristino automatico dei nodi Tieni presente che devi anche attivare il ripristino automatico dei nodi durante la creazione o l'aggiornamento del cluster.
kubectl label nodes <node-name> \ sagemaker.amazonaws.com/node-health-status=UnschedulablePendingReboot
Dopo aver applicato UnschedulablePendingReboot
le etichette UnschedulablePendingReplacement
o, dovresti essere in grado di vedere che il nodo è terminato o riavviato in pochi minuti.