Agent de surveillance des nœuds Réparation automatique des nœuds

Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Détectez les problèmes de santé des nœuds et activez la réparation automatique des nœuds

L'état de santé du nœud fait référence à l'état opérationnel et à la capacité d'un nœud Kubernetes à exécuter efficacement les charges de travail. Un nœud sain maintient la connectivité réseau attendue, dispose de ressources de calcul et de stockage suffisantes et peut exécuter des charges de travail sans interruption.

Pour aider à maintenir des nœuds sains dans les clusters EKS, EKS propose l'agent de surveillance des nœuds et la réparation automatique des nœuds. Ces fonctionnalités sont automatiquement activées avec le calcul en mode automatique d'EKS. Vous pouvez également utiliser la réparation automatique des nœuds avec les groupes de nœuds gérés par EKS et Karpenter, et vous pouvez utiliser l'agent de surveillance des nœuds EKS avec tous les types de calcul EKS, à l'exception de AWS Fargate. L'agent de surveillance des nœuds EKS et la réparation automatique des nœuds sont plus efficaces lorsqu'ils sont utilisés ensemble, mais ils peuvent également être utilisés individuellement dans les clusters EKS.

Important

L’agent de surveillance des nœuds et la réparation automatique des nœuds ne sont disponibles que sous Linux. Ces fonctionnalités ne sont pas disponibles sous Windows.

Agent de surveillance des nœuds

L'agent de surveillance des nœuds EKS lit les journaux des nœuds pour détecter les problèmes de santé. Il analyse les journaux pour détecter les défaillances et affiche des informations sur l'état de santé des nœuds. Pour chaque catégorie de problèmes détectés, l'agent applique un nœud dédié NodeCondition aux nœuds de travail. Pour obtenir des informations détaillées sur les problèmes de santé des nœuds détectés par l'agent de surveillance des nœuds EKS, consultezDétectez les problèmes de santé des nœuds avec l'agent de surveillance des nœuds EKS.

Le calcul en mode automatique EKS inclut l'agent de surveillance des nœuds. Pour les autres types de calcul EKS, vous pouvez ajouter l'agent de surveillance des nœuds en tant que module complémentaire EKS ou vous pouvez le gérer à l'aide d'outils Kubernetes tels que Helm. Pour de plus amples informations, veuillez consulter Configuration de l'agent de surveillance des nœuds.

Avec l'agent de surveillance des nœuds EKS, les catégories suivantes de problèmes de santé des nœuds apparaissent sous forme de problèmes liés aux nœuds. Notez que ReadyDiskPressure, et MemoryPressure sont des conditions de nœud Kubernetes standard qui apparaissent même sans l'agent de surveillance des nœuds EKS.

État du nœud	Description
AcceleratedHardwareReady	AcceleratedHardwareReady indique si le matériel accéléré (GPU, Neuron) du nœud fonctionne correctement.
ContainerRuntimeReady	ContainerRuntimeReady indique si le moteur d'exécution du conteneur (containerd, etc.) fonctionne correctement et est capable d'exécuter des conteneurs.
DiskPressure	DiskPressure est une condition standard de Kubernetes indiquant que le nœud est soumis à une pression sur le disque (espace disque insuffisant ou E/S élevées).
KernelReady	KernelReady indique si le noyau fonctionne correctement sans erreur critique, panique ou épuisement des ressources.
MemoryPressure	MemoryPressure est une condition standard de Kubernetes indiquant que le nœud est soumis à une pression de mémoire (faible mémoire disponible).
NetworkingReady	NetworkingReady indique si la pile réseau du nœud fonctionne correctement (interfaces, routage, connectivité).
StorageReady	StorageReady indique si le sous-système de stockage du nœud fonctionne correctement (disques, systèmes de fichiers, E/S).
Prêt	Prêt est la condition standard de Kubernetes indiquant que le nœud est sain et prêt à accepter des pods.

Réparation automatique des nœuds

La réparation automatique des nœuds EKS surveille en permanence l'état des nœuds, réagit aux problèmes détectés et remplace ou redémarre les nœuds lorsque cela est possible. Cela améliore la fiabilité du cluster avec une intervention manuelle minimale et contribue à réduire les temps d'arrêt des applications.

À elle seule, la réparation automatique des nœuds EKS réagit aux Ready conditions du kubelet, à tous les objets de nœud supprimés manuellement et aux instances de groupes de nœuds gérés par EKS qui ne parviennent pas à rejoindre le cluster. Lorsque la réparation automatique des nœuds EKS est activée avec l'agent de surveillance des nœuds installé, la réparation automatique des nœuds EKS réagit aux conditions supplémentaires des nœuds : AcceleratedHardwareReady ContainerRuntimeReadyKernelReady,NetworkingReady,, etStorageReady.

La réparation automatique des nœuds EKS ne réagit pas à Kubernetes standard ni PIDPressure aux DiskPressure conditions MemoryPressure des nœuds. Ces conditions indiquent souvent des problèmes liés au comportement des applications, à la configuration de la charge de travail ou aux limites de ressources plutôt que des défaillances au niveau des nœuds, ce qui complique la détermination d'une action de réparation par défaut appropriée. Dans ces scénarios, les charges de travail sont soumises au comportement d'éviction par pression des nœuds Kubernetes.

Pour plus d'informations sur la réparation automatique des nœuds EKS, consultezRéparer automatiquement les nœuds dans les clusters EKS.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Builds personnalisés

Détection de l'état des nœuds