Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
REL06-BP04 Automatiser les réponses (traitement en temps réel et alarmes)
Utilisez l’automatisation pour agir en cas de détection d’événement, par exemple, pour remplacer les composants défectueux.
Un traitement automatique en temps réel des alarmes est mis en œuvre afin que les systèmes puissent prendre rapidement des mesures correctives et tenter d’éviter les pannes ou une dégradation du service lorsque les alarmes se déclenchent. Les réponses automatisées aux alarmes peuvent inclure le remplacement des composants défaillants, l’ajustement de la capacité de calcul, la redirection du trafic vers des hôtes, des zones de disponibilité ou d’autres régions en bonne santé, et la notification des opérateurs.
Résultat souhaité : les alarmes en temps réel sont identifiées et le traitement automatique des alarmes est configuré pour déclencher les actions appropriées prises pour maintenir les objectifs de niveau de service et les accords de niveau de service ()SLAs. L’automatisation peut aller de l’autoréparation de composants individuels au basculement complet du site.
Anti-modèles courants :
-
Pas d’inventaire ou de catalogue clair des principales alarmes en temps réel.
-
Aucune réponse automatique aux alarmes critiques (par exemple, lorsque la capacité de calcul est presque épuisée, une mise à l’échelle automatique se produit).
-
Réponses aux alarmes contradictoires.
-
Aucune procédure opérationnelle standard (SOPs) à suivre par les opérateurs lorsqu'ils reçoivent des notifications d'alerte.
-
Pas de surveillance des modifications de configuration, alors que des changements de configuration non détectés peuvent entraîner des temps d’arrêt pour les charges de travail.
-
Pas de stratégie pour annuler les modifications de configuration involontaires.
Avantages du respect de cette bonne pratique : l’automatisation du traitement des alarmes peut améliorer la résilience du système. Le système prend automatiquement des mesures correctives, réduisant ainsi les activités manuelles qui nécessitent des interventions humaines sujettes aux erreurs. L’exécution de la charge de travail permet d’atteindre les objectifs de disponibilité et de réduire les interruptions de service.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen
Directives d’implémentation
Pour gérer efficacement les alertes et automatiser leur réponse, classez les alertes en fonction de leur criticité et de leur impact, documentez les procédures de réponse et planifiez les réponses avant de classer les tâches.
Identifiez les tâches nécessitant des actions spécifiques (souvent détaillées dans les runbooks) et examinez tous les runbooks et playbooks pour déterminer les tâches qui peuvent être automatisées. Si les actions peuvent être définies, alors elles sont souvent automatisables. Si les actions ne peuvent pas être automatisées, documentez les étapes manuelles SOP et formez les opérateurs à ces étapes. Remettez continuellement en question les processus manuels pour trouver des opportunités d’automatisation où vous pouvez établir et maintenir un plan d’automatisation des réponses aux alertes.
Étapes d’implémentation
-
Créez un inventaire des alarmes : pour obtenir une liste de toutes les alarmes, vous pouvez AWS CLI
utiliser la CloudWatch commande Amazon describe-alarms
. Selon le nombre d'alarmes que vous avez configurées, vous devrez peut-être utiliser la pagination pour récupérer un sous-ensemble d'alarmes pour chaque appel, ou vous pouvez utiliser le pour obtenir les alarmes AWS SDK à l'aide d'un API appel. -
Documentez toutes les actions d’alarme : mettez à jour un runbook avec toutes les alarmes et leurs actions, qu’elles soient manuelles ou automatisées. AWS Systems Manager fournit des runbooks prédéfinis. Pour plus d’informations sur les runbooks, consultez Travailler avec des runbooks. Pour plus de détails sur la façon d’afficher le contenu du runbook, consultez Afficher le contenu du runbook.
-
Configurer et gérer les actions d'alarme : pour toutes les alarmes nécessitant une action, spécifiez l'action automatisée à l'aide du CloudWatch SDK. Par exemple, vous pouvez modifier automatiquement l'état de vos EC2 instances Amazon en fonction CloudWatch d'une alarme en créant et en activant des actions sur une alarme ou en désactivant des actions sur une alarme.
Vous pouvez également utiliser Amazon EventBridge
pour répondre automatiquement aux événements du système, tels que les problèmes de disponibilité des applications ou les modifications des ressources. Vous pouvez créer des règles pour indiquer quels événements vous intéressent et les actions à effectuer quand un événement correspond à une règle. Les actions qui peuvent être initiées automatiquement incluent l'appel d'une AWS Lambda fonction, l'appel d'Amazon EC2 Run Command
, le transfert de l'événement à Amazon Kinesis DataStreams et l'utilisation d'Automate Amazon. EC2 EventBridge -
Procédures opérationnelles standard (SOPs) : en fonction des composants de votre application, AWS Resilience Hubrecommande plusieurs SOPmodèles. Vous pouvez les utiliser SOPs pour documenter tous les processus qu'un opérateur doit suivre en cas d'alerte. Vous pouvez également créer une application SOP basée sur les recommandations du Resilience Hub, dans laquelle vous avez besoin d'une application Resilience Hub associée à une politique de résilience, ainsi que d'une évaluation historique de la résilience par rapport à cette application. Les recommandations qui vous SOP sont adressées sont issues de l'évaluation de la résilience.
Resilience Hub travaille avec Systems Manager pour automatiser vos étapes SOPs en fournissant un certain nombre de SSMdocuments que vous pouvez utiliser comme base pour celles-ciSOPs. Par exemple, Resilience Hub peut recommander un SOP pour ajouter de l'espace disque sur la base d'un document SSM d'automatisation existant.
-
Réalisez des actions automatisées à l'aide d'Amazon DevOps Guru : vous pouvez utiliser Amazon DevOps Guru
pour surveiller automatiquement les ressources de l'application afin de détecter tout comportement anormal et de fournir des recommandations ciblées afin d'accélérer l'identification des problèmes et les délais de résolution. Avec DevOps Guru, vous pouvez surveiller les flux de données opérationnelles en temps quasi réel à partir de plusieurs sources, notamment Amazon CloudWatch Metrics AWS Config , AWS CloudFormation , et AWS X-Ray . Vous pouvez également utiliser DevOps Guru pour créer OpsItems OpsCenter et envoyer automatiquement des événements à des EventBridge fins d'automatisation supplémentaire.
Ressources
Bonnes pratiques associées :
Documents connexes :
Vidéos connexes :
-
AWS re:Invent 2022 - Meilleures pratiques en matière d'observabilité sur Amazon
-
AWS re:Invent 2020 : automatisez tout avec AWS Systems Manager
-
Créez des systèmes de tickets personnalisés pour les notifications Amazon DevOps Guru
-
Activez l'agrégation d'informations sur plusieurs comptes avec Amazon Guru DevOps
Exemples associés :