Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Abilita la riparazione automatica del nodo e analizza i problemi di salute del nodo

Modalità Focus
Abilita la riparazione automatica del nodo e analizza i problemi di salute del nodo - Amazon EKS

Aiutaci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Aiutaci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

L'integrità del nodo si riferisce allo stato operativo e alla capacità di un nodo di eseguire efficacemente i carichi di lavoro. Un nodo integro mantiene la connettività prevista, dispone di risorse sufficienti e può eseguire correttamente i Pod senza interruzioni. Per informazioni su come ottenere dettagli sui nodi, consulta Visualizza lo stato di salute dei tuoi nodi e. Recupera i log dei nodi per un nodo gestito usando kubectl e S3

Per aiutare a mantenere i nodi integri, Amazon EKS offre l'agente di monitoraggio dei nodi e la riparazione automatica dei nodi.

Agente di monitoraggio dei nodi

L'agente di monitoraggio dei nodi legge automaticamente i log dei nodi per rilevare determinati problemi di salute. Analizza i log dei nodi per rilevare gli errori e mostra varie informazioni sullo stato dei nodi di lavoro. Sui nodi di lavoro NodeCondition viene applicato un codice dedicato per ogni categoria di problemi rilevati, ad esempio problemi di storage e rete. Le descrizioni dei problemi di salute rilevati sono disponibili nella dashboard di osservabilità. Per ulteriori informazioni, consulta Problemi di salute dei nodi.

L'agente di monitoraggio dei nodi è incluso come funzionalità per tutti i cluster Amazon EKS Auto Mode. Per altri tipi di cluster, puoi aggiungere l'agente di monitoraggio come componente aggiuntivo di Amazon EKS. Per ulteriori informazioni, consulta Crea un componente aggiuntivo Amazon EKS.

Riparazione auto Node

La riparazione automatica dei nodi è una funzionalità aggiuntiva che monitora continuamente lo stato dei nodi, reagendo automaticamente ai problemi rilevati e sostituendo i nodi quando possibile. Ciò consente la disponibilità complessiva del cluster con un intervento manuale minimo. Se un controllo di integrità fallisce, il nodo viene automaticamente isolato in modo che non siano programmati nuovi Pod sul nodo.

Di per sé, la riparazione automatica del nodo può reagire alle Ready condizioni degli oggetti del nodo kubelet e di tutti gli oggetti del nodo che vengono eliminati manualmente. Se abbinato all'agente di monitoraggio del nodo, la riparazione automatica del nodo può reagire a più condizioni che altrimenti non verrebbero rilevate. Queste condizioni aggiuntive includono KernelReadyNetworkingReady, eStorageReady.

Questo ripristino automatico dei nodi risolve automaticamente i problemi intermittenti dei nodi, come la mancata adesione al cluster, i kubelet che non rispondono e l'aumento degli errori dell'acceleratore (dispositivo). La maggiore affidabilità aiuta a ridurre i tempi di inattività delle applicazioni e a migliorare le operazioni del cluster. La riparazione automatica del nodo non è in grado di gestire determinati problemi segnalati come DiskPressureMemoryPressure, ePIDPressure. Amazon EKS attende 10 minuti prima di agire su e 30 minuti per tutte le altre condizioni. AcceleratedHardwareReady NodeConditions

I gruppi di nodi gestiti disabiliteranno inoltre automaticamente le riparazioni dei nodi per motivi di sicurezza in due scenari. Tutte le operazioni di riparazione precedentemente in corso continueranno per entrambe le situazioni.

  • Se è stato attivato uno spostamento di zona per il cluster tramite Application Recovery Controller (ARC), tutte le operazioni di riparazione successive vengono interrotte.

  • Se il gruppo di nodi ha più di cinque nodi e più del 20% dei nodi del gruppo di nodi non sono integri, le operazioni di riparazione vengono interrotte.

È possibile abilitare la riparazione automatica dei nodi durante la creazione o la modifica di un gruppo di nodi gestito.

Problemi di salute dei nodi

Le tabelle seguenti descrivono i problemi di integrità dei nodi che possono essere rilevati dall'agente di monitoraggio del nodo. Esistono due tipi di problemi:

  • Condizione: un problema terminale che richiede un'azione di riparazione come la sostituzione o il riavvio dell'istanza. Quando la riparazione automatica è abilitata, Amazon EKS eseguirà un'azione di riparazione, sostituendo il nodo o riavviando. Per ulteriori informazioni, consulta Condizioni del nodo.

  • Evento: un problema temporaneo o una configurazione non ottimale del nodo. Non verrà effettuata alcuna operazione di riparazione auto. Per ulteriori informazioni, consulta Eventi del nodo.

Problemi di integrità dei nodi del kernel

Nome Gravità Descrizione

ForkFailedOutOfPID

Condizione

Una chiamata fork o exec non è riuscita a causa dell'esaurimento del processo IDs o della memoria del sistema, che può essere causato da processi zombi o dall'esaurimento della memoria fisica.

AppBlocked

Evento

L'operazione è stata bloccata a causa della pianificazione per un lungo periodo di tempo, in genere a causa del blocco in ingresso o in uscita.

AppCrash

Evento

Un'applicazione sul nodo si è bloccata.

ApproachingKernelPidMax

Evento

Il numero di processi si sta avvicinando al numero massimo di processi disponibili per l'attuale impostazione kernel.pid_max, dopo di PIDs che non è possibile avviare altri processi.

ApproachingMaxOpenFiles

Evento

Il numero di file aperti si avvicina al numero massimo di file aperti possibili date le impostazioni correnti del kernel, dopodiché l'apertura di nuovi file avrà esito negativo.

ConntrackExceededKernel

Evento

Il tracciamento delle connessioni ha superato il limite massimo consentito dal kernel e non è stato possibile stabilire nuove connessioni, con conseguente perdita di pacchetti.

ExcessiveZombieProcesses

Evento

I processi che non possono essere recuperati completamente si accumulano in gran numero, il che indica problemi di applicazione e può portare al raggiungimento dei limiti dei processi di sistema.

KernelBug

Evento

Un bug del kernel è stato rilevato e segnalato dal kernel Linux stesso, anche se a volte ciò può essere causato da nodi con un elevato utilizzo della CPU o della memoria, con conseguente ritardo nell'elaborazione degli eventi.

LargeEnvironment

Evento

Il numero di variabili di ambiente per questo processo è maggiore del previsto, potenzialmente causato da molti servizi enableServiceLinks impostati su true, il che può causare problemi di prestazioni.

RapidCron

Evento

Un cron job viene eseguito più velocemente di ogni cinque minuti su questo nodo, il che può influire sulle prestazioni se il job consuma risorse significative.

SoftLockup

Evento

La CPU si è bloccata per un determinato periodo di tempo.

Problemi di integrità dei nodi di rete

Nome Gravità Descrizione

InterfaceNotRunning

Condizione

Questa interfaccia sembra non funzionare o ci sono problemi di rete.

InterfaceNotUp

Condizione

Questa interfaccia sembra non essere attiva o ci sono problemi di rete.

IPAMDNotPronto

Condizione

IPAMD non riesce a connettersi al server API.

IPAMDNotIn esecuzione

Condizione

Il aws-k8s-agent processo non è stato trovato in esecuzione.

MissingLoopbackInterface

Condizione

L'interfaccia di loopback non è presente in questa istanza, il che causa l'interruzione dei servizi a seconda della connettività locale.

BandwidthInExceeded

Evento

I pacchetti sono stati messi in coda o eliminati perché la larghezza di banda aggregata in entrata ha superato il massimo consentito per l'istanza.

BandwidthOutExceeded

Evento

I pacchetti sono stati messi in coda o eliminati perché la larghezza di banda aggregata in uscita ha superato il massimo consentito per l'istanza.

ConntrackExceeded

Evento

Il tracciamento delle connessioni ha superato il limite massimo per l'istanza e non è stato possibile stabilire nuove connessioni, il che può causare la perdita di pacchetti.

IPAMDNoIPs

Evento

IPAM-D ha esaurito gli indirizzi IP.

IPAMDRepeatedlyRiavviare

Evento

Si sono verificati più riavvii del servizio IPAMD.

KubeProxyNotReady

Evento

Kube-Proxy non è riuscito a controllare o elencare le risorse.

LinkLocalExceeded

Evento

I pacchetti sono stati eliminati perché il PPS del traffico verso i servizi proxy locali ha superato il valore massimo dell'interfaccia di rete.

MissingDefaultRoutes

Evento

Mancano le regole di routing predefinite.

MancanteIPRules, mancante IPRoutes

Evento

Nella tabella delle rotte mancano le regole di percorso per il seguente Pod IPs .

NetworkSysctl

Evento

Le impostazioni sysctl di rete di questo nodo sono potenzialmente errate.

PortConflict

Evento

Se un Pod utilizza HostPort, può scrivere regole iptables che sovrascrivono le porte già associate dell'host, impedendo potenzialmente l'accesso al server API. kubelet

PPSExceeded

Evento

I pacchetti sono stati messi in coda o eliminati perché il PPS bidirezionale ha superato il massimo consentito per l'istanza.

UnexpectedRejectRule

Evento

È stata rilevata una DROP regola REJECT or imprevista in iptables, che potrebbe bloccare il traffico previsto.

Problemi di salute dei nodi neuronali

Nome Gravità Descrizione

Neurone DMAError

Condizione

Un motore DMA ha rilevato un errore irreversibile.

Errore neuronale HBMUncorrectable

Condizione

Un HBM ha riscontrato un errore non correggibile e ha prodotto risultati errati.

Errore neuronale NCUncorrectable

Condizione

È stato rilevato un errore di memoria non correggibile di Neuron Core.

Errore SRAMUncorrectable neuronale

Condizione

Una SRAM su chip ha riscontrato un errore di parità e ha prodotto risultati errati.

Problemi di integrità dei nodi NVIDIA

Se la riparazione automatica è abilitata, le azioni di riparazione elencate iniziano 10 minuti dopo il rilevamento del problema. Per ulteriori informazioni sugli errori XID, consulta Xid Errors nella documentazione di distribuzione e gestione delle GPU NVIDIA. Per ulteriori informazioni sui singoli messaggi XID, vedere Comprendere i messaggi Xid nella documentazione di distribuzione e gestione delle GPU NVIDIA.

Nome Gravità Descrizione Azione di riparazione

NvidiaDoubleBitError

Condizione

Il driver della GPU ha prodotto un errore a doppio bit.

Replace (Sostituisci)

Errore Nvidia NVLink

Condizione

NVLink gli errori sono stati segnalati dal driver della GPU.

Replace (Sostituisci)

Errore Nvidia XID13

Condizione

Esiste un'eccezione al motore grafico.

Riavvio

Errore Nvidia XID31

Condizione

Si sospetta che si verifichino problemi hardware.

Riavvio

Errore Nvidia XID48

Condizione

Gli errori ECC a doppio bit vengono segnalati dal driver.

Riavvio

Errore Nvidia XID63

Condizione

C'è un ritiro della pagina o una nuova mappatura delle righe.

Riavvio

Errore Nvidia XID64

Condizione

Si verificano errori nel tentativo di ritirare una pagina o di eseguire una rimappatura dei nodi.

Riavvio

Errore Nvidia XID74

Condizione

C'è un problema con una connessione dalla GPU a un'altra GPU o più. NVSwitch NVLink Ciò può indicare un errore hardware del collegamento stesso o un problema con il dispositivo all'estremità remota del collegamento.

Replace (Sostituisci)

Errore Nvidia XID79

Condizione

Il driver della GPU ha tentato di accedere alla GPU tramite la connessione PCI Express e ha rilevato che la GPU non è accessibile.

Replace (Sostituisci)

Errore Nvidia XID94

Condizione

Sono presenti errori di memoria ECC.

Riavvio

Errore Nvidia XID95

Condizione

Sono presenti errori di memoria ECC.

Riavvio

Errore Nvidia XID119

Condizione

Il GSP è scaduto per rispondere alle richieste RPC provenienti da altri bit del driver.

Replace (Sostituisci)

XID12Errore Nvidia 0

Condizione

Il GSP ha risposto in tempo, ma con un errore.

Replace (Sostituisci)

Errore Nvidia XID121

Condizione

C2C è l'interconnessione del chip. Consente la condivisione della memoria tra CPUs acceleratori e altro.

Replace (Sostituisci)

Errore Nvidia 0 XID14

Condizione

Il driver della GPU potrebbe aver rilevato errori non correggibili nella memoria della GPU, tali da interrompere la capacità del driver GPU di contrassegnare le pagine per l'offlining dinamico delle pagine o la rimappatura delle righe.

Replace (Sostituisci)

NvidiaPageRetirement

Evento

Il driver GPU ha contrassegnato una pagina di memoria come ritirata. Ciò può verificarsi se si verifica un singolo errore a doppio bit o si verificano due errori a bit singolo allo stesso indirizzo.

Nessuno

Avviso nvidiaXid [Code]

Evento

Qualsiasi occorrenza XIDs diversa da quelle definite in questo elenco genera questo evento.

Nessuno

DCGMError

Condizione

La connessione al processo host Data Center GPU Manager (DCGM) è stata interrotta o non è stato possibile stabilirla.

Nessuno

DCGMDiagnosticErrore

Condizione

Si è verificato un problema durante l'esecuzione della diagnostica attiva DCGM.

Nessuno

DCGMDiagnosticFallimento

Condizione

Un test case della suite di test DCGM Active Diagnostics non è riuscito.

Nessuno

Problemi di integrità del nodo di runtime

Nome Gravità Descrizione

PodStuckTerminating

Condizione

Un Pod è o è rimasto bloccato a terminare per un periodo di tempo eccessivo, il che può essere causato da errori CRI che impediscono la progressione dello stato del pod.

%sRepeatedRestart

Evento

Riavvio di qualsiasi servizio systemd sul nodo (formattato utilizzando il nome dell'unità con la maiuscola nel titolo).

ContainerRuntimeFailed

Evento

Il runtime del contenitore non è riuscito a creare un contenitore, probabilmente correlato a eventuali problemi segnalati se si verificano ripetutamente.

KubeletFailed

Evento

Il kubelet è entrato in uno stato di errore.

LivenessProbeFailures

Evento

È stato rilevato un errore della sonda liveness, che potrebbe indicare problemi nel codice dell'applicazione o valori di timeout insufficienti se si verificano ripetutamente.

ReadinessProbeFailures

Evento

È stato rilevato un errore della sonda di prontezza, che potrebbe indicare problemi nel codice dell'applicazione o valori di timeout insufficienti se si verificano ripetutamente.

ServiceFailedToStart

Evento

Impossibile avviare un'unità systemd.

Problemi di integrità dei nodi di storage

Nome Gravità Descrizione

XFSSmallAverageClusterSize

Condizione

La dimensione media del cluster XFS è piccola, il che indica un'eccessiva frammentazione dello spazio libero che può impedire la creazione di file nonostante gli inode o lo spazio libero disponibili.

EtcHostsMountFailed

Evento

Il montaggio del kubelet generato /etc/hosts non è riuscito a causa del rimontaggio dei dati utente durante il funzionamento di kubelet-container. /var/lib/kubelet/pods

IODelays

Evento

Ritardo di input o output rilevato in un processo, che potrebbe indicare una fornitura input-output insufficiente, se eccessiva.

KubeletDiskUsageSlow

Evento

Kubelet segnala un utilizzo lento del disco durante il tentativo di accesso al file system, il che potrebbe indicare problemi di input-output del disco input-output insufficienti o problemi del file system.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.