Contrôles de statut pour les EC2 instances Amazon - Amazon Elastic Compute Cloud

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Contrôles de statut pour les EC2 instances Amazon

Grâce à la surveillance de l'état des instances, vous pouvez rapidement déterminer si Amazon EC2 a détecté des problèmes susceptibles d'empêcher vos instances d'exécuter des applications. Amazon EC2 effectue des contrôles automatisés sur chaque EC2 instance en cours d'exécution afin d'identifier les problèmes matériels et logiciels. Vous pouvez afficher les résultats de ces contrôles de statut pour identifier des problèmes spécifiques et détectables. Les données d'état des événements complètent les informations EC2 déjà fournies par Amazon sur l'état de chaque instance (telles quepending,running,stopping) et les indicateurs d'utilisation CloudWatch surveillés par Amazon (CPUutilisation, trafic réseau et activité du disque).

Les contrôles de statut sont exécutés toutes les minutes et chacun d’entre eux renvoie un statut de réussite ou d’échec. Si tous les contrôles réussissent, le statut global de l’instance est OK. Si un ou plusieurs contrôles échouent, le statut global de l’instance est dégradé. Les vérifications de statut sont intégrées à AmazonEC2, elles ne peuvent donc pas être désactivées ou supprimées.

Lorsqu'une vérification de statut échoue, la CloudWatch métrique correspondante pour les vérifications de statut est incrémentée. Pour de plus amples informations, veuillez consulter Métriques de contrôle de statut. Vous pouvez utiliser ces mesures pour créer des CloudWatch alarmes déclenchées en fonction du résultat des vérifications d'état. Par exemple, vous pouvez créer une alarme pour vous avertir si des contrôles de statut échouent sur une instance spécifique. Pour de plus amples informations, veuillez consulter Créez des CloudWatch alarmes pour les EC2 instances Amazon qui échouent aux vérifications de statut.

Vous pouvez également créer une CloudWatch alarme Amazon qui surveille une EC2 instance Amazon et la récupère automatiquement si elle est altérée en raison d'un problème sous-jacent. Pour de plus amples informations, veuillez consulter Résilience de l'instance.

Types de contrôles de statut

Il existe trois types de contrôles de statuts.

Contrôles de statut de système

Les vérifications de l'état du système surveillent les AWS systèmes sur lesquels votre instance s'exécute. Ces contrôles détectent les problèmes sous-jacents liés à votre instance qui nécessitent une intervention de résolution d’ AWS . Lorsqu'une vérification de l'état du système échoue, vous pouvez choisir AWS d'attendre que le problème soit résolu ou de le résoudre vous-même. Pour les instances soutenues par AmazonEBS, vous pouvez arrêter et démarrer l'instance vous-même, ce qui entraîne dans la plupart des cas la migration de l'instance vers un nouvel hôte. Pour les instances Linux basées sur le stockage d’instance, vous pouvez mettre l’instance hors service et la remplacer. Pour les instances Windows, le volume racine doit être un EBS volume Amazon ; le magasin d'instances n'est pas pris en charge pour le volume racine. Notez que les volumes de stockage d’instance sont éphémères et que toutes les données sont perdues lorsque l’instance est arrêtée.

Voici des exemples de problèmes pouvant entraîner l’échec des contrôles de statut :

  • Perte de connectivité réseau

  • Perte d’alimentation système

  • Problèmes logiciels sur un hôte physique

  • Problèmes matériels sur un hôte physique ayant un impact sur l’accessibilité du réseau

Si la vérification de l'état du système échoue, nous incrémentons la métrique StatusCheckFailed_System.

Instances nues

Si vous effectuez un redémarrage à partir du système d’exploitation sur une instance nue (bare metal), la vérification de l’état du système peut renvoyer temporairement un état d’échec. Lorsque l’instance devient disponible, la vérification de l’état du système doit renvoyer un état de succès.

Contrôles de statut des instances

Contrôles du statut de l’instance Surveillez la configuration logicielle et réseau de votre instance. Amazon EC2 vérifie l'état de l'instance en envoyant une demande de protocole de résolution d'adresses (ARP) à l'interface réseau (NIC). Ces contrôles détectent les problèmes nécessitant votre intervention pour les résoudre. Lorsqu’un contrôle de statut d’instance échoue, vous devez généralement résoudre le problème vous-même (par exemple, en redémarrant l’instance ou en effectuant des changements de configuration sur l’instance).

Note

Les distributions Linux récentes utilisées systemd-networkd pour la configuration réseau peuvent rendre compte des vérifications de santé différemment des distributions précédentes. Au cours du processus de démarrage, ce type de réseau peut démarrer plus tôt et éventuellement se terminer avant d'autres tâches de démarrage susceptibles d'affecter l'état de l'instance. Les vérifications d'état qui dépendent de la disponibilité du réseau peuvent signaler un état sain avant que les autres tâches ne soient terminées.

Voici des exemples de problèmes pouvant entraîner l’échec des contrôles d’instance :

  • Échec de contrôles de statut de système

  • Configuration de mise en réseau ou de démarrage incorrecte

  • Mémoire épuisée

  • Système de fichiers corrompu

  • Noyau incompatible

  • [Instances Windows] Lors du redémarrage de l'instance ou lorsqu'une instance basée sur le stockage d'une instance Windows est groupée, une vérification de l'état de l'instance signale un échec jusqu'à ce que l'instance soit de nouveau disponible.

Si la vérification de l'état d'une instance échoue, nous incrémentons la métrique StatusCheckFailed_Instance.

Instances nues

Si vous effectuez un redémarrage à partir du système d’exploitation sur une instance nue (bare metal), la vérification de l’état de l’instance peut renvoyer temporairement un état d’échec. Lorsque l’instance devient disponible, la vérification de l’état de l’instance doit renvoyer un état de succès.

Contrôles EBS d'état joints

Les contrôles de EBS statut attachés vérifient si les EBS volumes Amazon attachés à une instance sont accessibles et capables d'effectuer des opérations d'E/S. La StatusCheckFailed_AttachedEBS métrique est une valeur binaire qui indique une altération si un ou plusieurs EBS volumes attachés à l'instance ne sont pas en mesure d'effectuer les opérations d'E/S. Ces vérifications d'état détectent les problèmes sous-jacents liés au calcul ou à EBS l'infrastructure Amazon. Lorsque la métrique de vérification de EBS statut jointe échoue, vous pouvez soit AWS attendre que le problème soit résolu, soit prendre des mesures, telles que le remplacement des volumes concernés ou l'arrêt et le redémarrage de l'instance.

Voici des exemples de problèmes susceptibles d'entraîner l'échec des vérifications de EBS statut des pièces jointes :

  • Problèmes matériels ou logiciels sur les sous-systèmes de stockage sous-jacents aux volumes EBS

  • Problèmes matériels sur l'hôte physique qui ont un impact sur l'accessibilité des volumes EBS

  • Problèmes de connectivité entre l'instance et les EBS volumes

Vous pouvez utiliser la métrique StatusCheckFailed_AttachedEBS pour améliorer la résilience de votre charge de travail. Vous pouvez utiliser cette métrique pour créer des CloudWatch alarmes Amazon déclenchées en fonction du résultat de la vérification de statut. Par exemple, vous pouvez basculer vers une instance secondaire ou une zone de disponibilité lorsque vous détectez un impact prolongé. Vous pouvez également surveiller les performances d'E/S de chaque volume connecté à l'aide de EBS CloudWatch métriques pour détecter et remplacer le volume endommagé. Si votre charge de travail ne génère d'E/S vers aucun des EBS volumes attachés à votre instance et que la vérification de l'EBSétat associée indique un dysfonctionnement, vous pouvez arrêter et démarrer l'instance pour résoudre les problèmes liés à l'hôte physique qui ont un impact sur l'accessibilité des volumes. EBS Pour plus d'informations, consultez CloudWatch les statistiques Amazon pour Amazon EBS.

Vous pouvez également configurer vos groupes Amazon EC2 Auto Scaling pour détecter les échecs de vérification de EBS statut associés, puis remplacer l'instance affectée par une nouvelle instance. Pour plus d'informations, consultez la section Surveiller et remplacer les instances Auto Scaling par des EBS volumes Amazon altérés dans le manuel Amazon EC2 Auto Scaling User Guide.

Note

La métrique de vérification de EBS statut ci-jointe n'est disponible que pour les instances Nitro.