Performing a post-incident analysis in Incident Manager - Incident Manager

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Performing a post-incident analysis in Incident Manager

L'analyse post-incident vous aide à identifier les améliorations à apporter à votre réponse aux incidents, notamment en termes de délais de détection et d'atténuation. Une analyse peut également vous aider à comprendre la cause première des incidents. Incident Manager crée des actions recommandées pour améliorer votre réponse aux incidents.

Avantages d'une analyse post-incident
  • Améliorez la réponse aux incidents

  • Comprendre la cause première du problème

  • Traitez les causes profondes à l'aide d'actions réalisables

  • Analyser l'impact des incidents

  • Capturez et partagez les apprentissages au sein d'une organisation

Les raisons pour lesquelles il ne faut pas utiliser une analyse

Une analyse est irréprochable et n'appelle pas les gens par leur nom.

« Peu importe ce que nous découvrons, nous comprenons et croyons sincèrement que chacun a fait de son mieux, compte tenu de ce qu'il savait à l'époque, de ses compétences et de ses capacités, des ressources disponibles et de la situation actuelle. » - Norm Kerth, Rétrospectives de projets : manuel pour l'examen en équipe

Détails de l'analyse

La page des détails de l'analyse vous guide dans la collecte d'informations, l'évaluation des améliorations et la création d'actions à entreprendre. La page des détails de l'analyse est similaire aux détails de l'incident, avec quelques différences importantes telles que les indicateurs historiques, la chronologie modifiable et les questions visant à améliorer les incidents futurs.

Présentation

L'aperçu est un résumé de l'incident. Ce résumé inclut le contexte, ce qui s'est passé, pourquoi cela s'est produit, comment cela a été atténué, la durée et les principales mesures à prendre pour éviter que l'incident ne se reproduise. La vue d'ensemble est de haut niveau. Vous découvrirez plus de détails dans l'onglet Questions de l'analyse.

Métriques

Utilisez l'onglet métriques pour visualiser les indicateurs clés de votre application pendant toute la durée de l'incident. Vous pouvez ajouter ici des graphiques métriques contenant une ou plusieurs métriques représentées dans le même graphique. Les métriques utilisées lors d'un incident sont automatiquement renseignées dans cet onglet. Nous vous recommandons d'ajouter une description, un titre et des annotations des moments clés de l'incident.

Voici quelques points temporels clés que vous pouvez prendre en compte lors de l'analyse d'un graphique métrique :

  • Modification du déploiement

  • Modification de la configuration

  • Heure de début de l'incident

  • Heure de l'alarme

  • Heure de l'engagement

  • Heure de début des mesures d'atténuation

  • Délai de résolution de l'incident

Limites
  • CloudWatch les alarmes et les expressions métriques ne sont pas importées à partir d'un incident.

  • Les métriques situées dans une région non prise en charge par Incident Manager ne sont pas importées à partir de l'incident.

  • Les métriques des comptes d'applications nécessitent de configurer le CloudWatch-CrossAccountSharingRole avant de créer l'analyse. Pour plus d'informations sur le rôle, consultez la section CloudWatch Console inter-comptes inter-régions dans le guide de l' CloudWatch utilisateur.

Chronologie

Décrivez les moments clés de la chronologie au fur et à mesure que vous approfondissez votre compréhension de l'incident. La chronologie des incidents est automatiquement renseignée dans cet onglet. Vous pouvez supprimer les points temporels qui ne sont pas pertinents pour l'analyse. Vous pouvez également ajouter et modifier des points temporels pour décrire plus précisément l'incident et son impact.

Utilisez l'onglet chronologie pour répondre aux questions que vous trouverez dans l'onglet Questions concernant la réponse à l'incident.

Questions

Utilisez les questions du gestionnaire d'incidents pour accélérer le délai de résolution des incidents dans votre application et réduire leur fréquence. Au fur et à mesure que vous répondez aux questions, mettez à jour les onglets Métriques et Chronologie pour plus de précision. Les questions portent sur les aspects essentiels de la réponse aux incidents :

  • Détection — Pourriez-vous améliorer le délai de détection ? Existe-t-il des mises à jour des métriques et des alarmes qui permettraient de détecter l’incident plus rapidement ?

  • Diagnostic — Pouvez-vous accélérer le diagnostic ? Existe-t-il des mises à jour de vos plans de réponse ou de vos plans d’escalade qui permettraient d’impliquer plus rapidement les bons intervenants ?

  • Atténuation — Pouvez-vous réduire le délai d'atténuation ? Y a-t-il des étapes du runbook que vous pourriez ajouter ou améliorer ?

  • Prévention — Pouvez-vous empêcher de futurs incidents de se produire ? Pour découvrir les causes profondes d'un incident, Amazon utilise l'approche des 5 raisons pour enquêter sur les problèmes.

Actions

Incident Manager crée des actions recommandées que vous pouvez consulter au fur et à mesure que vous répondez aux questions. Vous pouvez choisir d'accepter et d'exécuter ces actions à partir de cet onglet ou de les ignorer. Vous pouvez consulter les actions rejetées en choisissant Actions rejetées. Les éléments d'action sont un type OpsItem de élément lié à l'analyse et à l'incident dans OpsCenter.

Liste de contrôle

Avant de clore une analyse, utilisez la liste de contrôle pour passer en revue les mesures que doit prendre un intervenant. Lorsque les intervenants exécutent les actions de la liste de contrôle, l'icône située à côté de l'action passe d'une ellipse à une coche, indiquant que l'action est terminée. Si vous n'avez pas terminé les éléments de la liste de contrôle, Incident Manager affiche un message pour confirmer que le répondant souhaite clore l'analyse sans la terminer.

Modèles d'analyse

Un modèle d'analyse fournit un ensemble de questions qui explorent en profondeur la cause première des incidents. Vous pouvez utiliser les réponses à ces questions pour améliorer les performances des applications et la réponse aux incidents.

AWS modèle standard

Incident Manager fournit un modèle standard de questions basé sur les meilleures pratiques en matière de réponse aux AWS incidents et d'analyse des problèmes, intituléAWSIncidents-PostIncidentAnalysisTemplate.

Création d'un modèle d'analyse

Nous vous encourageons à utiliser le AWSIncidents-PostIncidentAnalysisTemplate modèle par défaut et à ajouter des questions ou des sections supplémentaires adaptées à vos cas d'utilisation. Créez des modèles d'analyse basés sur le modèle par défaut Utilisez ce modèle comme point de départ pour créer des modèles d'analyse dans votre compte de gestion. Vous pouvez ensuite dupliquer vos modèles d'analyse dans chaque région dans laquelle vous avez activé Incident Manager.

Création d'un modèle d'analyse
  1. Appelez l'GetDocumentaction et utilisez ses Name paramètres pour le téléchargerAWSIncidents-PostIncidentAnalysisTemplate. Pour plus d'informations sur la GetDocument syntaxe, consultez la section Systems Manager API Reference.

  2. Le contenu de la réponse contient les JSON éléments de base de l'analyse. Utilisez les éléments de base des questions pour insérer des questions supplémentaires dans l'analyse. Nous vous recommandons d'ajouter des questions ou des sections dans la Incident questions section.

  3. Pour créer le nouveau modèle, utilisez l'CreateDocumentopération avec le modèle mis à jour JSON à l'étape précédente. Vous devez inclure ce qui suit, où se Analysis_Template_Name trouve le nom de votre modèle,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Création d'une analyse

  1. Pour créer une analyse, choisissez Créer une analyse sur la page des détails de l'incident d'un incident clôturé.

  2. Choisissez le modèle d'analyse à partir duquel créer cette analyse, puis entrez un nom descriptif de l'analyse.

  3. Sélectionnez Create (Créer).

Vous pouvez générer une copie d'une analyse complète ou incomplète formatée pour l'impression. Vous pouvez également enregistrer cette copie au formatPDF. Vous pouvez imprimer une analyse à la fois. L'impression par lots de plusieurs analyses n'est actuellement pas prise en charge.

Pour imprimer une analyse formatée
  1. Ouvrez la console Incident Manager.

  2. Choisissez l'onglet Analyse.

  3. Choisissez le titre de l'analyse que vous souhaitez imprimer.

  4. Dans le coin supérieur droit de la page détaillée de l'analyse, choisissez Imprimer.

  5. Dans la boîte de dialogue Imprimer l'analyse des incidents, effacez les sections de l'analyse que vous ne souhaitez pas inclure dans la version imprimée. Par défaut, toutes les sections sont sélectionnées.

  6. Choisissez Imprimer pour ouvrir les commandes d'impression locales de votre appareil.

  7. Choisissez votre destination ou format d'impression. Vous pouvez choisir une imprimante locale ou réseau, ou vous pouvez enregistrer l'analyse dans unPDF. Apportez les modifications nécessaires aux options d'impression restantes, puis choisissez Imprimer.

    Note

    Les commandes d'impression locales font référence à l'interface utilisateur fournie par votre navigateur Web et votre appareil.

    Les destinations d'impression sont celles configurées pour votre appareil et accessibles depuis celui-ci.