OPS07-BP04 Utiliser des playbooks pour analyser les problèmes - Pilier Excellence opérationnelle

OPS07-BP04 Utiliser des playbooks pour analyser les problèmes

Les playbooks sont des guides détaillés utilisés pour analyser un incident. Lorsque des incidents se produisent, les playbooks sont utilisés pour analyser, évaluer l’impact et identifier une cause racine. Les playbooks sont utilisés dans le cadre de différents scénarios allant des échecs de déploiement aux incidents de sécurité. Dans la plupart des cas, les playbooks identifient la cause racine qui est atténuée par l’utilisation d’un runbook. Les playbooks sont une composante essentielle des plans de réponse de votre organisation en cas d’incident.

Un playbook efficace comporte plusieurs fonctionnalités clés. Il guide l’utilisateur, étape par étape, dans le processus de découverte. Si vous optez pour un point de vue extérieur, quelles étapes devez-vous suivre pour diagnostiquer un incident ? Définissez clairement dans le playbook si des outils spéciaux ou des autorisations élevées sont nécessaires. Il est essentiel d’élaborer un plan de communication pour informer les parties prenantes du statut de l’analyse. Lorsqu’il est impossible de déterminer la cause première, le playbook doit comporter un plan de remontée des informations vers la hiérarchie. Si la cause racine est identifiée, le playbook doit faire référence à un runbook décrivant une solution pour la résoudre. Les playbooks doivent être stockés dans un emplacement central et mis à jour régulièrement. Si des playbooks sont utilisés pour des alertes précises, donnez aux membres de votre équipe des indications relatives au playbook dans le cadre de l’alerte.

Au fur et à mesure que votre organisation évolue, automatisez vos playbooks. Commencez par des playbooks qui couvrent les incidents à faible risque. Utilisez des scripts pour automatiser les étapes de découverte. Veillez à créer des runbooks complémentaires destinés à atténuer les causes racine courantes.

Résultat souhaité : votre organisation dispose de playbooks pour les incidents courants. Les playbooks sont stockés dans un emplacement central et mis à la disposition des membres de votre équipe. Les playbooks sont souvent mis à jour. Pour toute cause racine connue, des runbooks complémentaires sont créés.

Anti-modèles courants :

  • Il n’existe pas de façon standard d’analyser un incident.

  • Les membres de l’équipe comptent sur la mémoire musculaire ou les connaissances institutionnelles pour résoudre un échec de déploiement.

  • Les nouveaux membres de l’équipe apprennent à analyser les problèmes par un procédé de tâtonnement.

  • Les bonnes pratiques d’analyse des problèmes ne sont pas partagées entre les équipes.

Avantages de la mise en place de cette bonne pratique :

  • Les playbooks dynamisent les efforts nécessaires pour atténuer les incidents.

  • Différents membres de l’équipe peuvent utiliser le même playbook pour identifier une cause racine de façon cohérente.

  • Les causes profondes connues peuvent être associées à des runbooks développés spécialement pour leur résolution, ce qui permet d’accélérer le délai de récupération.

  • Les playbooks permettent aux membres de l’équipe de commencer à apporter leur contribution plus tôt.

  • Les équipes peuvent adapter leurs processus à l’aide de playbooks reproductibles.

Niveau de risque exposé si cette bonne pratique n’est pas respectée : moyen

Directives d’implémentation

La façon dont vous créez et utilisez les playbooks dépend de la maturité de votre organisation. Si vous débutez dans le cloud, créez des playbooks sous forme de texte dans un référentiel de documents centralisé. Au fur et à mesure que votre organisation évolue, les playbooks peuvent devenir semi-automatisés avec des langages de script comme Python. Ces scripts peuvent être exécutés dans un bloc-notes Jupyter afin d’accélérer la découverte. Les organisations avancées ont des playbooks entièrement automatisés pour les problèmes courants qui sont corrigés automatiquement avec des runbooks.

Pour commencer à créer vos playbooks, répertoriez les incidents qui affectent couramment votre charge de travail. Pour commencer, choisissez des playbooks pour les incidents à faible risque dont la cause racine a été réduite à quelques problèmes. Une fois que vous disposez de playbooks pour des scénarios plus simples, passez aux scénarios à risque élevé ou à ceux dont la cause racine est peu connue.

Vos playbooks sous forme de texte doivent être automatisés à mesure que votre entreprise évolue. À l’aide de services comme AWS Systems Manager Automations, le texte plat peut être transformé en automatisations. Ces automatisations peuvent être exécutées en fonction de votre charge de travail pour accélérer les analyses. Ces automatisations peuvent être activées en réponse à des événements, ce qui réduit le temps nécessaire pour découvrir et résoudre les incidents.

Les clients peuvent utiliser AWS Systems Manager Incident Manager pour répondre aux incidents. Ce service offre une interface unique pour trier les incidents, informer les parties prenantes pendant la découverte et l’atténuation, et collaborer tout au long de l’incident. Il utilise AWS Systems Manager Automations afin d’accélérer la détection et la récupération.

Exemple de client

AnyCompany Retail a dû faire face à un incident de production. L’ingénieur d’astreinte a utilisé un playbook pour analyser le problème. À mesure qu’il effectuait les différentes étapes, il a informé les parties prenantes identifiées dans le playbook de l’évolution de la situation. L’ingénieur a identifié que la cause racine était une condition de concurrence dans un service back-end. À l’aide d’un runbook, il a relancé le service et a permis à AnyCompany Retail d’être à nouveau en ligne.

Étapes d’implémentation

Si vous n’avez pas de référentiel de documents existant, nous vous suggérons de créer un référentiel de contrôle de version pour votre bibliothèque de playbooks. Vous pouvez créer vos playbooks en utilisant Markdown, qui est compatible avec la plupart des systèmes d’automatisation de playbook. Si vous démarrez de zéro, utilisez l’exemple de modèle de playbook suivant.

# Playbook Title ## Playbook Info | Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan | |-------|-------|-------|-------|-------|-------|-------|-------|-------| | RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? | ## Steps 1. Step one 2. Step two
  1. Si vous ne possédez pas de référentiel de documents ni de wiki existant, créez un référentiel de contrôle de version pour vos playbooks dans votre système de contrôle de version.

  2. Identifiez un problème courant qui doit être analysé. Il doit s’agir d’un scénario où la cause racine se limite à quelques problèmes et où la résolution présente peu de risques.

  3. À l’aide du modèle Markdown, remplissez la section Playbook Name (Nom du playbook) et les champs sous Playbook Info (Informations sur le playbook).

  4. Remplissez les étapes de résolution du problème. Soyez aussi clair que possible sur les actions à effectuer ou les domaines à analyser.

  5. Remettez le playbook à un membre de l’équipe et demandez-lui de le passer en revue afin de le valider. S’il manque quelque chose ou si un point n’est pas clair, mettez à jour le playbook.

  6. Publiez le playbook dans votre référentiel de documents et informez votre équipe et les parties prenantes.

  7. Cette bibliothèque de playbooks s’enrichira à mesure que vous ajouterez d’autres playbooks. Une fois que vous avez plusieurs playbooks, commencez à les automatiser en utilisant des outils comme AWS Systems Manager Automations afin de garantir la synchronisation entre l’automatisation et les playbooks.

Niveau d’effort du plan d’implémentation : faible. Vos playbooks doivent être des documents texte stockés dans un emplacement central. Les organisations plus avancées évolueront vers l’automatisation des playbooks.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :

Services associés :