REL12-BP06 Organiser régulièrement des journées de jeu - AWS Framework Well-Architected

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

REL12-BP06 Organiser régulièrement des journées de jeu

Utilisez des tests de simulation de panne pour exercer régulièrement vos procédures de réponse aux événements et aux défaillances aussi près que possible de la production (y compris dans les environnements de production) avec les personnes qui seront impliquées dans les scénarios de défaillance réels. Les tests de simulation de panne appliquent des mesures pour s’assurer que les événements de production n’affectent pas les utilisateurs.

Ils simulent une défaillance ou un événement pour tester les systèmes, les processus et la réponse de l’équipe. L’objectif est d’effectuer les actions que l’équipe effectuerait si un événement exceptionnel se produisait. Vous comprendrez ainsi où apporter des améliorations et à développer une expérience de gestion des événements au sein de votre organisation. Des jeux de rôle doivent être effectués régulièrement afin que votre équipe se constitue une « mémoire musculaire » quant à la façon de réagir.

Une fois votre conception de résilience en place et testée dans des environnements non liés à la production, un test de simulation de panne permet de s’assurer que tout fonctionne comme prévu en production. Un test de simulation de pannes, particulièrement le premier, est une activité « exploitant toutes les ressources ». L’intégralité des ingénieurs et des opérations est informée de ce qui se passera et quand. Les playbooks sont en place. Des événements simulés sont exécutés, y compris des événements de défaillance possibles, dans les systèmes de production de la manière prescrite, et l’impact est évalué. Si tous les systèmes fonctionnent comme prévu, la détection et l’auto-réparation se produiront avec peu, voire aucun impact. En revanche, si un impact négatif est observé, le test est annulé et les problèmes de charge de travail sont résolus, manuellement au besoin (à l’aide du runbook). Étant donné que les tests de simulation de pannes se déroulent souvent en production, toutes les précautions doivent être prises pour s’assurer de l’absence d’impact sur la disponibilité pour vos clients.

Anti-modèles courants :

  • Documenter vos procédures sans jamais les exercer.

  • Non-inclusion des décideurs commerciaux dans les exercices de test.

Avantages du respect de cette bonne pratique : l’organisation régulière de tests de simulation de panne a un double avantage. D’une part, elle permet de s’assurer que tout le personnel suit les stratégies et les procédures lorsqu’un incident réel se produit. D’autre part, elle facilite la validation de l’adéquation de ces stratégies et procédures.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen

Directives d’implémentation

  • Planifiez des tests de simulation de panne pour tester régulièrement vos runbooks et vos playbooks. Les tests de simulation de panne doivent impliquer tous ceux qui seraient affectés par une interruption de production : le propriétaire de l’entreprise, les développeurs, le personnel d’exploitation et les équipes d’interventions.

    • Effectuez vos tests de charge ou de performances et mettez en œuvre l’injection de pannes.

    • Recherchez des anomalies dans vos runbooks et des possibilités de test de vos playbooks.

      • Si vous vous écartez de vos runbooks, affinez-les ou corrigez le comportement. Lors des tests de votre playbook,, identifiez les runbooks qui auraient dû être utilisés ou créez-en de nouveaux.

Ressources

Vidéos connexes :