Détails de l'incident - Incident Manager

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détails de l'incident

La page des détails de l'incident fournit des informations détaillées et des outils que vous pouvez utiliser pour gérer un incident. À partir de cette page, vous pouvez créer des runbooks pour atténuer un incident, ajouter des notes d'incident, engager d'autres résolveurs et consulter les détails de l'incident tels que les délais, les indicateurs, les propriétés et les ressources associées. La page des détails de l'incident comprend les sections suivantes : bannière supérieure, notes sur l'incident et sept onglets contenant des informations et des ressources supplémentaires. Par défaut, les sections Bannière supérieure et Notes d'incident sont affichées sur toutes les pages de détails de l'incident.

La page des détails de l'incident comprend 7 onglets contenant des informations relatives à un incident.

Cette rubrique décrit les éléments de la page de détails de l'incident et les actions que vous pouvez effectuer à partir de cette page.

Bannière supérieure

La bannière supérieure de chaque page détaillée de l'incident contient les informations suivantes :

  • État : le statut actuel d'un incident peut être ouvert ou résolu.

  • Impact : impact de l'incident sur votre environnement. Il peut être élevé, moyen ou faible. Pour modifier l'impact d'un incident, choisissez Modifier les propriétés.

  • Canal de discussion : lien permettant d'accéder au canal de discussion où vous pouvez consulter les mises à jour et les notifications relatives aux incidents.

  • Durée : délai écoulé avant qu'un intervenant ne résolve l'incident.

  • Runbooks : statuts des runbooks associés à cet incident. Le statut peut être en attente de saisie, réussi ou échec. Si le statut d'un runbook est en attente de saisie, vous pouvez sélectionner le runbook pour afficher les détails des actions. Vous pouvez sélectionner « Échec » pour afficher les runbooks dont le délai est expiré, qui ont échoué ou qui ont été annulés.

  • Engagements : nombre total d'engagements et statut de chaque engagement. Lorsque vous créez un engagement, son statut est Engagé. Une fois que vous avez confirmé l'engagement, le statut passe de Engagé à Reconnu. Incident Manager ne prend pas en charge la reconnaissance des engagements de tiers. Ces engagements conservent le statut Engagé.

Vous pouvez modifier le titre, l'impact et le canal de discussion de l'incident en choisissant Modifier dans le coin supérieur droit de la bannière.

Notes relatives à l'incident

La partie droite de l'écran affiche la section des notes relatives à l'incident. Grâce aux notes, vous pouvez collaborer et communiquer avec d'autres utilisateurs qui travaillent sur un incident. Vous pouvez expliquer les mesures d'atténuation que vous avez appliquées, une cause première potentielle que vous avez identifiée ou l'état actuel de l'incident. Il est recommandé d'utiliser la section Notes d'incident pour publier des mises à jour sur le statut et les mesures que vous ou d'autres prenez en cas d'incident. Si vous devez communiquer avec d'autres résolveurs en temps réel, utilisez le canal de discussion disponible dans Incident Manager.

Pour ajouter une note, cliquez sur le bouton Ajouter une note d'incident, puis saisissez votre note. Les notes peuvent contenir des mises à jour sur l'état de l'incident ou toute autre information pertinente offrant une visibilité aux autres utilisateurs. Si nécessaire, vous pouvez également modifier ou supprimer les notes relatives à l'incident.

Note

Tout utilisateur disposant de l'autorisation IAM pour exécuter les ssm-incidents:DeleteTimelineEvent actions ssm-incidents:UpdateTimelineEvent et peut modifier et supprimer des notes. Toutefois, lorsque vous partagez un incident avec un autre compte, la politique en matière de ressources n'inclut pas l'ssm-incidents:DeleteTimelineEventaction. Cela empêche l'utilisateur avec lequel vous partagez l'incident de supprimer la note. Vous pouvez consulter la piste d'audit d'une note relative aux événements d'Incident Manager dans la AWS CloudTrail console.

Onglets

La page des détails de l'incident comporte sept onglets, ce qui permet aux intervenants de localiser et de consulter plus facilement les informations lors d'un incident. Les onglets affichent un compteur dans le nom de l'onglet, qui indique le nombre de mises à jour apportées à l'onglet. Pour plus d'informations sur le contenu de chaque onglet ainsi que sur les actions disponibles, poursuivez votre lecture.

Présentation

L'onglet Vue d'ensemble est la page d'accueil pour les intervenants. Il contient le résumé de l'incident, une liste des événements chronologiques récents et l'étape actuelle du runbook.

Les intervenants utilisent le résumé pour savoir quelles mesures ont été prises, les résultats de tout changement, les prochaines étapes possibles et les informations sur l'impact de l'incident. Pour mettre à jour le résumé, choisissez Modifier dans le coin supérieur droit de la section Résumé.

Important

Si plusieurs répondeurs modifient le champ récapitulatif simultanément, le répondant qui soumet ses dernières modifications remplace toutes les autres entrées.

La section Événements chronologiques récents contient une chronologie renseignée par Incident Manager avec les cinq événements les plus récents. Utilisez cette section pour comprendre le statut de l'incident et ce qui s'est produit récemment. Pour consulter une chronologie complète, passez à l'onglet Chronologie.

La page d'aperçu affiche également l'étape du runbook en cours. Il peut s'agir d'une étape automatique exécutée dans votre AWS environnement ou d'un ensemble d'instructions manuelles destinées aux intervenants. Pour consulter le runbook complet, y compris les étapes précédentes et à venir, choisissez l'onglet Runbook.

Diagnostic

L'onglet Diagnostic contient des informations essentielles sur vos applications et systèmes AWS hébergés, notamment des informations sur les métriques et, si activé, les résultats.

Travailler avec des métriques

Incident Manager utilise Amazon CloudWatch pour renseigner les statistiques et les graphiques d'alarme figurant sur cet onglet. Pour en savoir plus sur les meilleures pratiques de gestion des incidents relatives à la définition des alarmes et des mesures, consultez Surveillance la section Planification des incidents de ce guide de l'utilisateur.

Pour ajouter des métriques
  • Choisissez Ajouter dans le coin supérieur droit de cet onglet.

    • Pour ajouter une métrique à partir d'un tableau de CloudWatch bord existant, choisissez À partir d'un tableau de CloudWatch bord existant.

      1. Choisissez un tableau de bord. Cela ajoute toutes les métriques et alarmes qui font partie du tableau de bord choisi.

      2. (Facultatif) Vous pouvez également sélectionner des mesures dans le tableau de bord pour afficher des mesures spécifiques.

    • Ajoutez une seule métrique en sélectionnant From CloudWatch et en collant une source de mesures. Pour copier une source de mesures, procédez comme suit :

      1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

      2. Dans le panneau de navigation, sélectionnez ‎Métriques.

      3. Dans l'onglet Toutes les mesures, entrez un terme de recherche dans le champ de recherche, tel qu'un nom de métrique ou un nom de ressource, puis choisissez Enter.

        Par exemple, si vous recherchez la CPUUtilization métrique, vous verrez les espaces de noms et les dimensions associés à cette métrique.

      4. Choisissez l'un des résultats de votre recherche pour afficher les statistiques.

      5. Choisissez l'onglet Source et copiez la source.

Les graphiques d'alarmes métriques ne peuvent être ajoutés aux détails de l'incident que par le biais du plan de réponse correspondant ou en sélectionnant À partir du tableau de CloudWatch bord existant lors de l'ajout d'une métrique.

Pour supprimer des métriques, choisissez Supprimer, puis choisissez les métriques que vous souhaitez supprimer dans le menu déroulant Metrics fourni.

Afficher les résultats provenant de AWS CodeDeploy et AWS CloudFormation

Une fois que les résultats sont activés et que toutes les autorisations requises sont configurées, tous les résultats susceptibles d'être liés à un incident spécifique sont joints à l'incident. Les intervenants peuvent consulter les informations relatives à ces résultats sur la page des détails de l'incident.

Pour consulter les résultats de CodeDeploy et CloudFormation
  1. Ouvrez la console Incident Manager.

  2. Choisissez le nom de l'incident à étudier.

  3. Dans l'onglet Diagnostic, dans la zone Résultats, comparez les heures de début de tout résultat signalé avec l'heure de début de l'incident.

  4. Pour afficher plus de détails sur un résultat, dans la colonne Référence, cliquez sur le lien vers le CloudFormation résultat CodeDeploy ou.

Chronologie

Utilisez l'onglet Chronologie pour suivre les événements survenus lors d'un incident. Incident Manager renseigne automatiquement les événements chronologiques qui identifient les événements importants survenus au cours de l'incident. Les intervenants peuvent ajouter des événements personnalisés en fonction des occurrences détectées manuellement. Au cours de l'analyse post-incident, l'onglet chronologie fournit des informations précieuses sur la manière de mieux se préparer et de répondre aux incidents à l'avenir. Pour plus d'informations sur l'analyse post-incident, consultezRéaliser une analyse post-incident dans le Gestionnaire d'Incident Manager Analyse post-incident.

Pour ajouter un événement chronologique personnalisé, choisissez Ajouter. Sélectionnez une date à l'aide du calendrier, puis entrez une heure. Toutes les heures sont indiquées dans votre fuseau horaire local. Fournissez une brève description de l'événement qui apparaît dans la chronologie.

Pour modifier un événement personnalisé existant, sélectionnez-le sur la chronologie, puis choisissez Modifier. Vous pouvez modifier l'heure, la date et la description des événements personnalisés. Vous ne pouvez modifier que des événements personnalisés.

Livres de course

L'onglet Runbooks de la page des détails de l'incident permet aux intervenants de consulter les étapes du runbook et de créer de nouveaux runbooks.

Pour démarrer un nouveau runbook, choisissez Start runbook dans la section Runbooks. Utilisez le champ de recherche pour trouver le runbook que vous souhaitez démarrer. Fournissez tous les paramètres requis et la version du runbook que vous souhaitez utiliser lors du démarrage du runbook. Les Runbooks démarrés lors d'un incident depuis l'onglet Runbooks utilisent les autorisations du compte actuellement connecté.

Pour accéder à la définition d'un runbook dans Systems Manager, choisissez le titre du runbook sous Runbooks. Pour accéder à l'instance en cours d'exécution du runbook dans Systems Manager, choisissez les détails d'exécution sous Détails d'exécution. Ces pages affichent le modèle utilisé pour démarrer le runbook et les détails spécifiques de l'instance actuellement en cours d'exécution du document d'automatisation.

La section des étapes du Runbook affiche la liste des étapes que le runbook sélectionné effectue automatiquement ou que les répondeurs exécutent manuellement. Les étapes se développent au fur et à mesure qu'elles deviennent l'étape en cours, affichant les informations requises pour terminer l'étape ou des détails sur le but de l'étape. Les étapes du runbook automatique sont résolues une fois l'automatisation terminée. Les étapes manuelles obligent les intervenants à choisir Étape suivante au bas de chaque étape. Une fois qu'une étape est terminée, le résultat de l'étape apparaît sous forme de liste déroulante.

Pour annuler l'exécution d'un runbook, choisissez Annuler un runbook. Cela arrêtera l'exécution du runbook et n'effectuera aucune autre étape du runbook.

Fiançailles

L'onglet Engagements des détails de l'incident stimule l'engagement des intervenants et des équipes. Dans cet onglet, vous pouvez voir qui a été engagé, qui a répondu, ainsi que quels intervenants seront engagés dans le cadre d'un plan d'escalade. Les intervenants peuvent contacter d'autres contacts directement depuis cet onglet. Pour en savoir plus sur la création de contacts et les plans d'escalade, consultez les Utilisation de plans d'escalade dans Incident Manager sections Utilisation des contacts dans Incident Manager et de ce guide.

Vous pouvez configurer des plans de réponse avec des contacts et des plans d'escalade pour démarrer automatiquement l'engagement dès le début d'un incident. Pour en savoir plus sur la configuration des plans d'intervention, consultez la Utilisation des plans de réponse dans Incident Manager section de ce guide.

Vous trouverez des informations sur chaque contact dans le tableau. Ce tableau contient les informations suivantes :

  • Nom — Liens vers la page des coordonnées qui affiche leurs méthodes de contact et leur plan d'engagement.

  • Plan d'escalade : liens vers le plan d'escalade qui a engagé le contact.

  • Source du contact — Identifie le service qui a engagé ce contact, tel que AWS Systems Manager ou PagerDuty.

  • Engagé : indique quand le plan a engagé un contact ou quand engager un contact dans le cadre d'un plan d'escalade.

  • Confirmé — Indique si le contact a accusé réception de l'engagement.

Pour accuser réception d'un engagement, le répondant peut effectuer l'une des opérations suivantes :

  • Appel téléphonique — Entrez 1 lorsque vous y êtes invité.

  • SMS — Répondez au message avec le code fourni ou saisissez le code fourni dans l'onglet Engagements de l'incident.

  • E-mail — Entrez le code fourni dans l'onglet Engagements de l'incident.

L'onglet Eléments associés est utilisé pour collecter des ressources liées à l'atténuation des incidents. Ces ressources peuvent être des ARN, des liens vers des ressources externes ou des fichiers chargés dans des compartiments Amazon S3. Le tableau affiche un titre descriptif et un ARN, un lien ou les détails du bucket. Avant d'utiliser des compartiments S3, consultez les meilleures pratiques de sécurité pour Amazon S3 dans le guide de l'utilisateur Amazon S3.

Lorsque vous chargez des fichiers dans un compartiment Amazon S3, le contrôle des versions est activé ou suspendu sur ce compartiment. Lorsque le contrôle de version est activé sur le compartiment, les fichiers chargés avec le même nom qu'un fichier existant sont ajoutés en tant que nouvelle version du fichier. Si le contrôle de version est suspendu, les fichiers chargés avec le même nom qu'un fichier existant remplacent le fichier existant. Pour en savoir plus sur la gestion des versions, consultez la section Utilisation de la gestion des versions dans les compartiments S3 du guide de l'utilisateur Amazon S3.

Lorsque vous supprimez un élément lié à un fichier, celui-ci est supprimé de l'incident mais pas du compartiment Amazon S3. Pour en savoir plus sur la suppression d'objets d'un compartiment Amazon S3, consultez Supprimer des objets Amazon S3 dans le guide de l'utilisateur Amazon S3.

Propriétés

L'onglet Propriétés fournit les informations suivantes sur l'incident.

Dans la section Propriétés de l'incident, vous pouvez consulter les informations suivantes :

  • État — Décrit l'état actuel de l'incident. L'incident peut être ouvert ou résolu.

  • Heure de début : heure à laquelle l'incident a été créé dans Incident Manager.

  • Heure de résolution : heure à laquelle l'incident a été résolu dans Incident Manager.

  • Amazon Resource Name (ARN) : ARN de l'incident. Utilisez l'ARN lorsque vous référencez l'incident depuis le chat ou avec les commandes AWS Command Line Interface (AWS CLI).

  • Plan de réponse — Identifie le plan de réponse pour l'incident sélectionné. Le choix du plan de réponse ouvre la page de détails du plan d'intervention.

  • Parent OpsItem : identifie la OpsItem personne créée comme étant le parent de l'incident. Un parent OpsItem peut avoir plusieurs incidents connexes et des mesures de suivi. La sélection du parent OpsItem ouvre la page de OpsItems détails dans OpsCenter.

  • Analyse — Identifie l'analyse créée à partir de cet incident. Créez une analyse à partir d'un incident résolu afin d'améliorer votre processus de réponse aux incidents. Choisissez l'analyse pour ouvrir la page des détails de l'analyse.

  • Propriétaire : compte sur lequel l'incident a été créé.

Dans la section Balises, vous pouvez afficher et modifier les clés de balise et les valeurs associées à l'enregistrement de l'incident. Pour plus d'informations sur les balises dans Incident Manager, consultezMarquage des ressources dans Incident Manager.