REL06-BP04 Automatiser les réponses (traitement en temps réel et alarmes)

Utilisez l’automatisation pour agir en cas de détection d’événement, par exemple, pour remplacer les composants défectueux.

Un traitement automatique en temps réel des alarmes est mis en œuvre afin que les systèmes puissent prendre rapidement des mesures correctives et tenter d’éviter les pannes ou une dégradation du service lorsque les alarmes se déclenchent. Les réponses automatisées aux alarmes peuvent inclure le remplacement des composants défaillants, l’ajustement de la capacité de calcul, la redirection du trafic vers des hôtes, des zones de disponibilité ou d’autres régions en bonne santé, et la notification des opérateurs.

Résultat souhaité : les alarmes en temps réel sont identifiées et le traitement automatique des alarmes est configuré pour déclencher les actions appropriées prises pour maintenir les objectifs de niveau de service et les accords de niveau de service ()SLAs. L’automatisation peut aller de l’autoréparation de composants individuels au basculement complet du site.

Anti-modèles courants :

Pas d’inventaire ou de catalogue clair des principales alarmes en temps réel.
Aucune réponse automatique aux alarmes critiques (par exemple, lorsque la capacité de calcul est presque épuisée, une mise à l’échelle automatique se produit).
Réponses aux alarmes contradictoires.
Aucune procédure opérationnelle standard (SOPs) à suivre par les opérateurs lorsqu'ils reçoivent des notifications d'alerte.
Pas de surveillance des modifications de configuration, alors que des changements de configuration non détectés peuvent entraîner des temps d’arrêt pour les charges de travail.
Pas de stratégie pour annuler les modifications de configuration involontaires.

Avantages du respect de cette bonne pratique : l’automatisation du traitement des alarmes peut améliorer la résilience du système. Le système prend automatiquement des mesures correctives, réduisant ainsi les activités manuelles qui nécessitent des interventions humaines sujettes aux erreurs. L’exécution de la charge de travail permet d’atteindre les objectifs de disponibilité et de réduire les interruptions de service.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen

Directives d’implémentation

Pour gérer efficacement les alertes et automatiser leur réponse, classez les alertes en fonction de leur criticité et de leur impact, documentez les procédures de réponse et planifiez les réponses avant de classer les tâches.

Identifiez les tâches nécessitant des actions spécifiques (souvent détaillées dans les runbooks) et examinez tous les runbooks et playbooks pour déterminer les tâches qui peuvent être automatisées. Si les actions peuvent être définies, alors elles sont souvent automatisables. Si les actions ne peuvent pas être automatisées, documentez les étapes manuelles SOP et formez les opérateurs à ces étapes. Remettez continuellement en question les processus manuels pour trouver des opportunités d’automatisation où vous pouvez établir et maintenir un plan d’automatisation des réponses aux alertes.

Étapes d’implémentation

Créez un inventaire des alarmes : pour obtenir une liste de toutes les alarmes, vous pouvez AWS CLIutiliser la CloudWatch commande Amazondescribe-alarms. Selon le nombre d'alarmes que vous avez configurées, vous devrez peut-être utiliser la pagination pour récupérer un sous-ensemble d'alarmes pour chaque appel, ou vous pouvez utiliser le pour obtenir les alarmes AWS SDK à l'aide d'un API appel.
Documentez toutes les actions d’alarme : mettez à jour un runbook avec toutes les alarmes et leurs actions, qu’elles soient manuelles ou automatisées. AWS Systems Manager fournit des runbooks prédéfinis. Pour plus d’informations sur les runbooks, consultez Travailler avec des runbooks. Pour plus de détails sur la façon d’afficher le contenu du runbook, consultez Afficher le contenu du runbook.
Configurer et gérer les actions d'alarme : pour toutes les alarmes nécessitant une action, spécifiez l'action automatisée à l'aide du CloudWatch SDK. Par exemple, vous pouvez modifier automatiquement l'état de vos EC2 instances Amazon en fonction CloudWatch d'une alarme en créant et en activant des actions sur une alarme ou en désactivant des actions sur une alarme.

Vous pouvez également utiliser Amazon EventBridge pour répondre automatiquement aux événements du système, tels que les problèmes de disponibilité des applications ou les modifications des ressources. Vous pouvez créer des règles pour indiquer quels événements vous intéressent et les actions à effectuer quand un événement correspond à une règle. Les actions qui peuvent être initiées automatiquement incluent l'appel d'une AWS Lambdafonction, l'appel d'Amazon EC2Run Command, le transfert de l'événement à Amazon Kinesis Data Streams et l'utilisation d'Automate Amazon. EC2 EventBridge
Procédures opérationnelles standard (SOPs) : en fonction des composants de votre application, AWS Resilience Hubrecommande plusieurs SOPmodèles. Vous pouvez les utiliser SOPs pour documenter tous les processus qu'un opérateur doit suivre en cas d'alerte. Vous pouvez également créer une application SOP basée sur les recommandations du Resilience Hub, dans laquelle vous avez besoin d'une application Resilience Hub associée à une politique de résilience, ainsi que d'une évaluation historique de la résilience par rapport à cette application. Les recommandations qui vous SOP sont adressées sont issues de l'évaluation de la résilience.

Resilience Hub travaille avec Systems Manager pour automatiser vos étapes SOPs en fournissant un certain nombre de SSMdocuments que vous pouvez utiliser comme base pour celles-ciSOPs. Par exemple, Resilience Hub peut recommander un SOP pour ajouter de l'espace disque sur la base d'un document SSM d'automatisation existant.
Réalisez des actions automatisées à l'aide d'Amazon DevOps Guru : vous pouvez utiliser Amazon DevOps Guru pour surveiller automatiquement les ressources de l'application afin de détecter tout comportement anormal et de fournir des recommandations ciblées afin d'accélérer l'identification des problèmes et les délais de résolution. Avec DevOps Guru, vous pouvez surveiller les flux de données opérationnelles en temps quasi réel à partir de plusieurs sources, notamment Amazon CloudWatch Metrics AWS Config, AWS CloudFormation, et AWS X-Ray. Vous pouvez également utiliser DevOps Guru pour créer OpsItems OpsCenter et envoyer automatiquement des événements à des EventBridge fins d'automatisation supplémentaire.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples associés :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

REL06-BP03 Envoyer des notifications (traitement en temps réel et alarme)

REL06-BP05 Analyser les journaux