Aiutaci a migliorare questa pagina
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
L'integrità del nodo si riferisce allo stato operativo e alla capacità di un nodo di eseguire efficacemente i carichi di lavoro. Un nodo integro mantiene la connettività prevista, dispone di risorse sufficienti e può eseguire correttamente i Pod senza interruzioni. Per informazioni su come ottenere dettagli sui nodi, consulta Visualizza lo stato di salute dei tuoi nodi e. Recupera i log dei nodi per un nodo gestito usando kubectl e S3
Per aiutare a mantenere i nodi integri, Amazon EKS offre l'agente di monitoraggio dei nodi e la riparazione automatica dei nodi.
Agente di monitoraggio dei nodi
L'agente di monitoraggio dei nodi legge automaticamente i log dei nodi per rilevare determinati problemi di salute. Analizza i log dei nodi per rilevare gli errori e mostra varie informazioni sullo stato dei nodi di lavoro. Sui nodi di lavoro NodeCondition
viene applicato un codice dedicato per ogni categoria di problemi rilevati, ad esempio problemi di storage e rete. Le descrizioni dei problemi di salute rilevati sono disponibili nella dashboard di osservabilità. Per ulteriori informazioni, consulta Problemi di salute dei nodi.
L'agente di monitoraggio dei nodi è incluso come funzionalità per tutti i cluster Amazon EKS Auto Mode. Per altri tipi di cluster, puoi aggiungere l'agente di monitoraggio come componente aggiuntivo di Amazon EKS. Per ulteriori informazioni, consulta Crea un componente aggiuntivo Amazon EKS.
Riparazione auto Node
La riparazione automatica dei nodi è una funzionalità aggiuntiva che monitora continuamente lo stato dei nodi, reagendo automaticamente ai problemi rilevati e sostituendo i nodi quando possibile. Ciò consente la disponibilità complessiva del cluster con un intervento manuale minimo. Se un controllo di integrità fallisce, il nodo viene automaticamente isolato in modo che non siano programmati nuovi Pod sul nodo.
Di per sé, la riparazione automatica del nodo può reagire alle Ready
condizioni degli oggetti del nodo kubelet
e di tutti gli oggetti del nodo che vengono eliminati manualmente. Se abbinato all'agente di monitoraggio del nodo, la riparazione automatica del nodo può reagire a più condizioni che altrimenti non verrebbero rilevate. Queste condizioni aggiuntive includono KernelReady
NetworkingReady
, eStorageReady
.
Questo ripristino automatico dei nodi risolve automaticamente i problemi intermittenti dei nodi, come la mancata adesione al cluster, i kubelet che non rispondono e l'aumento degli errori dell'acceleratore (dispositivo). La maggiore affidabilità aiuta a ridurre i tempi di inattività delle applicazioni e a migliorare le operazioni del cluster. La riparazione automatica del nodo non è in grado di gestire determinati problemi segnalati come DiskPressure
MemoryPressure
, ePIDPressure
. Amazon EKS attende 10 minuti prima di agire su e 30 minuti per tutte le altre condizioni. AcceleratedHardwareReady
NodeConditions
I gruppi di nodi gestiti disabiliteranno inoltre automaticamente le riparazioni dei nodi per motivi di sicurezza in due scenari. Tutte le operazioni di riparazione precedentemente in corso continueranno per entrambe le situazioni.
-
Se è stato attivato uno spostamento di zona per il cluster tramite Application Recovery Controller (ARC), tutte le operazioni di riparazione successive vengono interrotte.
-
Se il gruppo di nodi ha più di cinque nodi e più del 20% dei nodi del gruppo di nodi non sono integri, le operazioni di riparazione vengono interrotte.
È possibile abilitare la riparazione automatica dei nodi durante la creazione o la modifica di un gruppo di nodi gestito.
-
Quando usi la console Amazon EKS, attiva la casella di controllo Abilita riparazione automatica del nodo per il gruppo di nodi gestito. Per ulteriori informazioni, consulta Crea un gruppo di nodi gestito per il tuo cluster.
-
Quando si utilizza la AWS CLI,
--node-repair-config enabled=true
aggiungere il comandoeks create nodegroup
oeks update-nodegroup-config
. -
Per un esempio
eksctl
ClusterConfig
che utilizza un gruppo di nodi gestito con riparazione automatica del nodo, vedi 44-node-repair.yamlon. GitHub
Problemi di salute dei nodi
Le tabelle seguenti descrivono i problemi di integrità dei nodi che possono essere rilevati dall'agente di monitoraggio del nodo. Esistono due tipi di problemi:
-
Condizione: un problema terminale che richiede un'azione di riparazione come la sostituzione o il riavvio dell'istanza. Quando la riparazione automatica è abilitata, Amazon EKS eseguirà un'azione di riparazione, sostituendo il nodo o riavviando. Per ulteriori informazioni, consulta Condizioni del nodo.
-
Evento: un problema temporaneo o una configurazione non ottimale del nodo. Non verrà effettuata alcuna operazione di riparazione auto. Per ulteriori informazioni, consulta Eventi del nodo.
Problemi di integrità dei nodi del kernel
Nome | Gravità | Descrizione |
---|---|---|
ForkFailedOutOfPID |
Condizione |
Una chiamata fork o exec non è riuscita a causa dell'esaurimento del processo IDs o della memoria del sistema, che può essere causato da processi zombi o dall'esaurimento della memoria fisica. |
AppBlocked |
Evento |
L'operazione è stata bloccata a causa della pianificazione per un lungo periodo di tempo, in genere a causa del blocco in ingresso o in uscita. |
AppCrash |
Evento |
Un'applicazione sul nodo si è bloccata. |
ApproachingKernelPidMax |
Evento |
Il numero di processi si sta avvicinando al numero massimo di processi disponibili per l'attuale impostazione kernel.pid_max, dopo di PIDs che non è possibile avviare altri processi. |
ApproachingMaxOpenFiles |
Evento |
Il numero di file aperti si avvicina al numero massimo di file aperti possibili date le impostazioni correnti del kernel, dopodiché l'apertura di nuovi file avrà esito negativo. |
ConntrackExceededKernel |
Evento |
Il tracciamento delle connessioni ha superato il limite massimo consentito dal kernel e non è stato possibile stabilire nuove connessioni, con conseguente perdita di pacchetti. |
ExcessiveZombieProcesses |
Evento |
I processi che non possono essere recuperati completamente si accumulano in gran numero, il che indica problemi di applicazione e può portare al raggiungimento dei limiti dei processi di sistema. |
KernelBug |
Evento |
Un bug del kernel è stato rilevato e segnalato dal kernel Linux stesso, anche se a volte ciò può essere causato da nodi con un elevato utilizzo della CPU o della memoria, con conseguente ritardo nell'elaborazione degli eventi. |
LargeEnvironment |
Evento |
Il numero di variabili di ambiente per questo processo è maggiore del previsto, potenzialmente causato da molti servizi enableServiceLinks impostati su true, il che può causare problemi di prestazioni. |
RapidCron |
Evento |
Un cron job viene eseguito più velocemente di ogni cinque minuti su questo nodo, il che può influire sulle prestazioni se il job consuma risorse significative. |
SoftLockup |
Evento |
La CPU si è bloccata per un determinato periodo di tempo. |
Problemi di integrità dei nodi di rete
Nome | Gravità | Descrizione |
---|---|---|
InterfaceNotRunning |
Condizione |
Questa interfaccia sembra non funzionare o ci sono problemi di rete. |
InterfaceNotUp |
Condizione |
Questa interfaccia sembra non essere attiva o ci sono problemi di rete. |
IPAMDNotPronto |
Condizione |
IPAMD non riesce a connettersi al server API. |
IPAMDNotIn esecuzione |
Condizione |
Il |
MissingLoopbackInterface |
Condizione |
L'interfaccia di loopback non è presente in questa istanza, il che causa l'interruzione dei servizi a seconda della connettività locale. |
BandwidthInExceeded |
Evento |
I pacchetti sono stati messi in coda o eliminati perché la larghezza di banda aggregata in entrata ha superato il massimo consentito per l'istanza. |
BandwidthOutExceeded |
Evento |
I pacchetti sono stati messi in coda o eliminati perché la larghezza di banda aggregata in uscita ha superato il massimo consentito per l'istanza. |
ConntrackExceeded |
Evento |
Il tracciamento delle connessioni ha superato il limite massimo per l'istanza e non è stato possibile stabilire nuove connessioni, il che può causare la perdita di pacchetti. |
IPAMDNoIPs |
Evento |
IPAM-D ha esaurito gli indirizzi IP. |
IPAMDRepeatedlyRiavviare |
Evento |
Si sono verificati più riavvii del servizio IPAMD. |
KubeProxyNotReady |
Evento |
Kube-Proxy non è riuscito a controllare o elencare le risorse. |
LinkLocalExceeded |
Evento |
I pacchetti sono stati eliminati perché il PPS del traffico verso i servizi proxy locali ha superato il valore massimo dell'interfaccia di rete. |
MissingDefaultRoutes |
Evento |
Mancano le regole di routing predefinite. |
MancanteIPRules, mancante IPRoutes |
Evento |
Nella tabella delle rotte mancano le regole di percorso per il seguente Pod IPs . |
NetworkSysctl |
Evento |
Le impostazioni sysctl di rete di questo nodo sono potenzialmente errate. |
PortConflict |
Evento |
Se un Pod utilizza HostPort, può scrivere regole iptables che sovrascrivono le porte già associate dell'host, impedendo potenzialmente l'accesso al server API. |
PPSExceeded |
Evento |
I pacchetti sono stati messi in coda o eliminati perché il PPS bidirezionale ha superato il massimo consentito per l'istanza. |
UnexpectedRejectRule |
Evento |
È stata rilevata una |
Problemi di salute dei nodi neuronali
Nome | Gravità | Descrizione |
---|---|---|
Neurone DMAError |
Condizione |
Un motore DMA ha rilevato un errore irreversibile. |
Errore neuronale HBMUncorrectable |
Condizione |
Un HBM ha riscontrato un errore non correggibile e ha prodotto risultati errati. |
Errore neuronale NCUncorrectable |
Condizione |
È stato rilevato un errore di memoria non correggibile di Neuron Core. |
Errore SRAMUncorrectable neuronale |
Condizione |
Una SRAM su chip ha riscontrato un errore di parità e ha prodotto risultati errati. |
Problemi di integrità dei nodi NVIDIA
Se la riparazione automatica è abilitata, le azioni di riparazione elencate iniziano 10 minuti dopo il rilevamento del problema. Per ulteriori informazioni sugli errori XID, consulta Xid Errors
Nome | Gravità | Descrizione | Azione di riparazione |
---|---|---|---|
NvidiaDoubleBitError |
Condizione |
Il driver della GPU ha prodotto un errore a doppio bit. |
Replace (Sostituisci) |
Errore Nvidia NVLink |
Condizione |
NVLink gli errori sono stati segnalati dal driver della GPU. |
Replace (Sostituisci) |
Errore Nvidia XID13 |
Condizione |
Esiste un'eccezione al motore grafico. |
Riavvio |
Errore Nvidia XID31 |
Condizione |
Si sospetta che si verifichino problemi hardware. |
Riavvio |
Errore Nvidia XID48 |
Condizione |
Gli errori ECC a doppio bit vengono segnalati dal driver. |
Riavvio |
Errore Nvidia XID63 |
Condizione |
C'è un ritiro della pagina o una nuova mappatura delle righe. |
Riavvio |
Errore Nvidia XID64 |
Condizione |
Si verificano errori nel tentativo di ritirare una pagina o di eseguire una rimappatura dei nodi. |
Riavvio |
Errore Nvidia XID74 |
Condizione |
C'è un problema con una connessione dalla GPU a un'altra GPU o più. NVSwitch NVLink Ciò può indicare un errore hardware del collegamento stesso o un problema con il dispositivo all'estremità remota del collegamento. |
Replace (Sostituisci) |
Errore Nvidia XID79 |
Condizione |
Il driver della GPU ha tentato di accedere alla GPU tramite la connessione PCI Express e ha rilevato che la GPU non è accessibile. |
Replace (Sostituisci) |
Errore Nvidia XID94 |
Condizione |
Sono presenti errori di memoria ECC. |
Riavvio |
Errore Nvidia XID95 |
Condizione |
Sono presenti errori di memoria ECC. |
Riavvio |
Errore Nvidia XID119 |
Condizione |
Il GSP è scaduto per rispondere alle richieste RPC provenienti da altri bit del driver. |
Replace (Sostituisci) |
XID12Errore Nvidia 0 |
Condizione |
Il GSP ha risposto in tempo, ma con un errore. |
Replace (Sostituisci) |
Errore Nvidia XID121 |
Condizione |
C2C è l'interconnessione del chip. Consente la condivisione della memoria tra CPUs acceleratori e altro. |
Replace (Sostituisci) |
Errore Nvidia 0 XID14 |
Condizione |
Il driver della GPU potrebbe aver rilevato errori non correggibili nella memoria della GPU, tali da interrompere la capacità del driver GPU di contrassegnare le pagine per l'offlining dinamico delle pagine o la rimappatura delle righe. |
Replace (Sostituisci) |
NvidiaPageRetirement |
Evento |
Il driver GPU ha contrassegnato una pagina di memoria come ritirata. Ciò può verificarsi se si verifica un singolo errore a doppio bit o si verificano due errori a bit singolo allo stesso indirizzo. |
Nessuno |
Avviso nvidiaXid [Code] |
Evento |
Qualsiasi occorrenza XIDs diversa da quelle definite in questo elenco genera questo evento. |
Nessuno |
DCGMError |
Condizione |
La connessione al processo host Data Center GPU Manager (DCGM) è stata interrotta o non è stato possibile stabilirla. |
Nessuno |
DCGMDiagnosticErrore |
Condizione |
Si è verificato un problema durante l'esecuzione della diagnostica attiva DCGM. |
Nessuno |
DCGMDiagnosticFallimento |
Condizione |
Un test case della suite di test DCGM Active Diagnostics non è riuscito. |
Nessuno |
Problemi di integrità del nodo di runtime
Nome | Gravità | Descrizione |
---|---|---|
PodStuckTerminating |
Condizione |
Un Pod è o è rimasto bloccato a terminare per un periodo di tempo eccessivo, il che può essere causato da errori CRI che impediscono la progressione dello stato del pod. |
%sRepeatedRestart |
Evento |
Riavvio di qualsiasi servizio systemd sul nodo (formattato utilizzando il nome dell'unità con la maiuscola nel titolo). |
ContainerRuntimeFailed |
Evento |
Il runtime del contenitore non è riuscito a creare un contenitore, probabilmente correlato a eventuali problemi segnalati se si verificano ripetutamente. |
KubeletFailed |
Evento |
Il kubelet è entrato in uno stato di errore. |
LivenessProbeFailures |
Evento |
È stato rilevato un errore della sonda liveness, che potrebbe indicare problemi nel codice dell'applicazione o valori di timeout insufficienti se si verificano ripetutamente. |
ReadinessProbeFailures |
Evento |
È stato rilevato un errore della sonda di prontezza, che potrebbe indicare problemi nel codice dell'applicazione o valori di timeout insufficienti se si verificano ripetutamente. |
ServiceFailedToStart |
Evento |
Impossibile avviare un'unità systemd. |
Problemi di integrità dei nodi di storage
Nome | Gravità | Descrizione |
---|---|---|
XFSSmallAverageClusterSize |
Condizione |
La dimensione media del cluster XFS è piccola, il che indica un'eccessiva frammentazione dello spazio libero che può impedire la creazione di file nonostante gli inode o lo spazio libero disponibili. |
EtcHostsMountFailed |
Evento |
Il montaggio del kubelet generato |
IODelays |
Evento |
Ritardo di input o output rilevato in un processo, che potrebbe indicare una fornitura input-output insufficiente, se eccessiva. |
KubeletDiskUsageSlow |
Evento |
Kubelet segnala un utilizzo lento del disco durante il tentativo di accesso al file system, il che potrebbe indicare problemi di input-output del disco input-output insufficienti o problemi del file system. |