Utilisation des plans de réponse dans Incident Manager - Incident Manager

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation des plans de réponse dans Incident Manager

Les plans de réponse vous permettent de planifier la manière de répondre à un incident ayant un impact sur vos utilisateurs. Un plan de réponse fonctionne comme un modèle qui inclut des informations sur les personnes à engager, la gravité attendue de l'événement, les runbooks automatiques à lancer et les mesures à surveiller.

Bonnes pratiques

Vous pouvez réduire l'impact des incidents sur vos équipes en planifiant les incidents à l'avance. Les équipes doivent prendre en compte les meilleures pratiques suivantes lors de la conception d'un plan de réponse.

  • Engagement rationalisé : identifiez l'équipe la plus appropriée pour un incident. Si vous interagissez avec une liste de distribution trop large ou si vous engagez les mauvaises équipes, vous risquez de créer de la confusion et de faire perdre du temps aux intervenants lors d'un incident.

  • Escalade fiable — Pour vos engagements dans le cadre d'un plan de réponse, nous vous recommandons de sélectionner un plan d'engagement plutôt que des contacts ou des calendriers d'astreinte. Le plan d'engagement doit spécifier les contacts individuels ou les horaires d'astreinte (qui contiennent plusieurs contacts rotatifs) à engager lors d'incidents. Étant donné que les intervenants spécifiés dans votre plan d'engagement peuvent parfois être injoignables, vous devez configurer des répondeurs de secours dans votre plan de réponse pour couvrir ces scénarios. Avec les contacts de secours, si les contacts principaux et secondaires ne sont pas disponibles ou s'il existe d'autres lacunes imprévues dans la couverture, Incident Manager informe tout de même un contact de l'incident.

  • Runbooks : utilisez les runbooks pour fournir des étapes répétables et compréhensibles qui réduisent le stress ressenti par un intervenant lors d'un incident.

  • Collaboration — Utilisez les canaux de discussion pour rationaliser la communication lors d'incidents. Les canaux de discussion aident les intervenants à se tenir au courant des informations. Ils peuvent également partager des informations avec d'autres intervenants par le biais de ces canaux.

Création d'un plan de réponse

Utilisez la procédure suivante pour créer un plan de réponse et automatiser la réponse aux incidents.

Pour créer un plan d'intervention
  1. Ouvrez la console Incident Manager, puis dans le volet de navigation, sélectionnez Response plans.

  2. Choisissez Créer un plan de réponse.

  3. Dans Nom, entrez un nom de plan de réponse unique et identifiable à utiliser dans l'Amazon Resource Name (ARN) du plan de réponse.

  4. (Facultatif) Dans Nom d'affichage, entrez un nom plus lisible pour aider à identifier le plan de réponse lorsque vous créez des incidents.

  5. Continuez en spécifiant les valeurs par défaut pour les enregistrements d'incidents.

Spécification des valeurs par défaut des incidents

Pour vous aider à gérer les incidents de manière plus efficace, vous pouvez définir des valeurs par défaut. Incident Manager applique ces valeurs à tous les incidents associés à un plan de réponse.

Pour spécifier les valeurs par défaut des incidents
  1. Dans le champ Titre, saisissez le titre de cet incident afin de vous aider à l'identifier sur la page d'accueil du Gestionnaire d'incidents.

  2. Pour Impact, choisissez un niveau d'impact pour indiquer l'étendue potentielle des incidents créés à partir de ce plan de réponse, tel que Critique ou Faible. Pour plus d'informations sur les évaluations d'impact dans Incident Manager, consultezTri.

  3. (Facultatif) Dans Résumé, entrez un bref résumé du type d'incidents créés à partir de ce plan de réponse.

  4. (Facultatif) Pour la chaîne de déduplication, entrez une chaîne de déduplication. Incident Manager utilise cette chaîne pour empêcher la même cause première de créer plusieurs incidents dans le même compte.

    Une chaîne de déduplication est un terme ou une expression que le système utilise pour vérifier la présence d'incidents dupliqués. Si vous spécifiez une chaîne de déduplication, Incident Manager recherche les incidents ouverts contenant la même chaîne dans le dedupeString champ lorsqu'il crée l'incident. Si un doublon est détecté, Incident Manager déduplique le nouvel incident dans l'incident existant.

    Note

    Par défaut, Incident Manager déduplique automatiquement plusieurs incidents créés par la même alarme Amazon CloudWatch ou le même événement Amazon. EventBridge Il n'est pas nécessaire de saisir votre propre chaîne de déduplication pour empêcher la duplication de ces types de ressources.

  5. (Facultatif) Sous Balises d'incident, ajoutez des clés de balise et des valeurs à attribuer aux incidents créés à partir de ce plan de réponse.

    Vous devez être autorisé à TagResource autoriser la ressource d'enregistrement des incidents à définir des balises d'incident dans le plan de réponse.

  6. Continuez en spécifiant un canal de discussion facultatif permettant aux résolveurs de communiquer entre eux au sujet des incidents.

(Facultatif) Spécification d'un canal de discussion pour répondre aux incidents

Lorsque vous incluez un canal de discussion dans un plan de réponse, les intervenants reçoivent des mises à jour sur les incidents via le canal. Ils peuvent interagir avec l'incident directement depuis le canal de discussion en utilisant les commandes de chat.

À l'aide deAWS Chatbot, vous pouvez créer une chaîne pour Slack ou Amazon Chime à utiliser dans vos plans de réponse. Pour plus d'informations sur la création d'un canal de discussion dansAWS Chatbot, consultez le guide de AWS Chatbot l'administrateur.

Important

Incident Manager doit être autorisé à publier sur la rubrique Amazon Simple Notification Service (Amazon SNS) d'un canal de discussion. Si vous n'êtes pas autorisé à publier sur cette rubrique SNS, vous ne pouvez pas l'ajouter au plan de réponse. Incident Manager publie une notification de test dans la rubrique SNS pour vérifier les autorisations.

Pour plus d'informations sur les canaux de discussion, consultezUtilisation des canaux de discussion dans Incident Manager.

Pour spécifier un canal de discussion pour répondre aux incidents
  1. Pour le canal de discussion, sélectionnez un canal de AWS Chatbot discussion où les intervenants peuvent communiquer lors d'un incident.

    Astuce

    Pour créer un nouveau canal de discussion dansAWS Chatbot, choisissez Configurer un nouveau client Chatbot.

  2. Pour les sujets SNS du canal de chat, choisissez des sujets SNS supplémentaires sur lesquels publier pendant l'incident. L'ajout de sujets SNS en plusieurs fois Régions AWS augmente la redondance au cas où une région serait en panne au moment de l'incident.

  3. Continuez en sélectionnant les contacts, les horaires d'astreinte et les plans d'escalade à engager lors d'un incident.

(Facultatif) Sélectionnez les ressources pour participer à la réponse aux incidents

Il est important d'identifier les intervenants les plus appropriés en cas d'incident. À titre de bonne pratique, nous vous recommandons de procéder comme suit :

  1. Ajoutez des contacts et des horaires d'astreinte comme canaux d'escalade dans un plan d'escalade.

  2. Choisissez un plan d'escalade comme engagement dans un plan de réponse.

Pour plus d'informations sur les contacts et les plans d'escalade, consultez Utilisation des contacts dans Incident Manager etUtilisation de plans d'escalade dans Incident Manager.

Pour sélectionner les ressources à engager dans la réponse aux incidents
  1. Pour les engagements, choisissez autant de plans d'escalade, de calendriers d'astreinte et de contacts individuels que vous le souhaitez.

  2. Continuez en spécifiant éventuellement un runbook à exécuter dans le cadre de l'atténuation de vos incidents.

(Facultatif) Spécification d'un runbook pour l'atténuation des incidents

Vous pouvez utiliser les runbooks d'AWS Systems ManagerAutomation, une fonctionnalité deAWS Systems Manager, pour automatiser les tâches d'application et d'infrastructure courantes dans votre AWS Cloud environnement.

Chaque runbook définit un flux de travail de runbook. Un flux de travail Runbook inclut les actions que Systems Manager exécute sur vos nœuds gérés ou sur d'autres types de AWS ressources. Dans Incident Manager, un runbook permet de répondre aux incidents et de les atténuer.

Pour plus d'informations sur l'utilisation des runbooks dans les plans de réponse,Utilisation des runbooks Systems Manager Automation dans Incident Manager.

Pour spécifier un runbook pour l'atténuation des incidents, procédez comme suit :

  1. Pour Runbook, effectuez l'une des opérations suivantes :

    • Choisissez Cloner le runbook depuis le modèle pour créer une copie du runbook par défaut d'Incident Manager. Pour le nom du runbook, entrez un nom descriptif pour le nouveau runbook.

    • Choisissez Sélectionner un runbook existant. Sélectionnez le propriétaire, le Runbook et la version à utiliser.

      Astuce

      Pour créer un runbook à partir de zéro, choisissez Configurer un nouveau runbook.

      Pour plus d'informations sur la création de runbooks, consultez Utilisation des runbooks Systems Manager Automation dans Incident Manager.

  2. Dans la zone Paramètres, indiquez tous les paramètres demandés pour le runbook que vous avez sélectionné.

    Les paramètres disponibles sont ceux spécifiés par le runbook. Un runbook peut nécessiter des paramètres différents d'un autre. Certains paramètres peuvent être obligatoires et d'autres facultatifs.

    Dans de nombreux cas, vous pouvez choisir de saisir manuellement une valeur statique pour un paramètre, telle qu'une liste d'identifiants d'instance Amazon EC2. Vous pouvez également laisser Incident Manager fournir les valeurs des paramètres qui ont été générées dynamiquement par un incident.

  3. (Facultatif) Pour AutomationAssumeRole, spécifiez le rôle AWS Identity and Access Management (IAM) à utiliser. Ce rôle doit disposer des autorisations nécessaires pour exécuter les commandes individuelles spécifiées dans le runbook.

    Note

    Si non AssumeRole est spécifié, Incident Manager tente d'utiliser le rôle de service Runbook pour exécuter les commandes individuelles spécifiées dans le runbook.

    Choisissez parmi les options suivantes :

    • Entrez une valeur ARN — Entrez manuellement le nom de ressource Amazon (ARN) d'un AssumeRole, au formatarn:aws:iam::account-id:role/assume-role-name. Par exemple, arn:aws:iam::123456789012:role/MyAssumeRole.

    • Utiliser un rôle de service existant : choisissez un rôle avec les autorisations requises dans la liste des rôles existants de votre compte.

    • Créer un nouveau rôle de service : choisissez parmi les politiques AWS gérées à associer à votre AssumeRole. Après avoir sélectionné cette option, pour les politiques AWS gérées, choisissez une ou plusieurs politiques dans la liste.

      Vous pouvez accepter le nom par défaut suggéré pour le nouveau rôle ou saisir le nom de votre choix.

      Note

      Ce nouveau rôle de service Runbook est associé au runbook spécifique que vous avez sélectionné. Il ne peut pas être utilisé avec différents runbooks. Cela est dû au fait que la section Ressources de la politique ne prend pas en charge les autres runbooks.

  4. Pour le rôle de service Runbook, spécifiez le rôle IAM à utiliser pour fournir les autorisations nécessaires pour accéder et démarrer le flux de travail pour le runbook lui-même.

    Au minimum, le rôle doit autoriser l'ssm:StartAutomationExecutionaction pour votre runbook spécifique. Pour que le runbook fonctionne sur plusieurs comptes, le rôle doit également autoriser l'sts:AssumeRoleaction pour le AWS-SystemsManager-AutomationExecutionRole rôle que vous avez créé au cours Gestion des incidents entre régions et entre comptes dans Incident Manager de cette opération.

    Choisissez parmi les options suivantes :

    • Créer un nouveau rôle de service : Incident Manager crée pour vous un rôle de service Runbook qui inclut les autorisations minimales requises pour démarrer le flux de travail Runbook.

      Pour Nom du rôle, vous pouvez accepter le nom par défaut suggéré ou saisir le nom de votre choix. Nous vous recommandons d'utiliser le nom suggéré ou de conserver le nom du runbook dans le nom. Cela est dû au fait que le nouveau runbook AssumeRole est associé au runbook spécifique que vous avez sélectionné et peut ne pas inclure les autorisations requises pour les autres runbooks.

    • Utiliser un rôle de service existant : un rôle IAM que vous ou Incident Manager avez créé précédemment accorde les autorisations nécessaires.

      Dans Nom du rôle, sélectionnez le nom du rôle existant à utiliser.

  5. Développez les options supplémentaires et choisissez l'une des options suivantes pour spécifier l'Compte AWSendroit où le flux de travail Runbook doit s'exécuter.

    • Compte du propriétaire du plan de réponse : lancez le flux de travail Runbook dans Compte AWS celui qui l'a créé.

    • Compte concerné : lancez le flux de travail Runbook dans le compte qui a déclenché ou signalé l'incident.

      Choisissez Compte impacté lorsque vous utilisez Incident Manager pour des scénarios entre comptes et que le runbook doit accéder aux ressources du compte concerné pour y remédier.

  6. Poursuivez en intégrant éventuellement un PagerDuty service dans le plan de réponse.

(Facultatif) Intégrer un PagerDuty service dans le plan de réponse

Pour intégrer un PagerDuty service dans le plan de réponse

Lorsque vous intégrez Incident Manager à PagerDuty, PagerDuty crée un incident correspondant chaque fois qu'Incident Manager crée un incident. L'incident dans PagerDuty utilise le flux de travail de pagination et les politiques d'escalade que vous y avez définis en plus de ceux définis dans Incident Manager. PagerDuty joint les événements chronologiques d'Incident Manager sous forme de notes sur votre incident.

  1. Développez les intégrations tierces, puis cochez la case Activer PagerDuty l'intégration.

  2. Pour Select secret, sélectionnez le secret dans AWS Secrets Manager lequel vous stockez les informations d'identification pour accéder à votre PagerDuty compte.

    Pour plus d'informations sur le stockage de vos PagerDuty informations d'identification dans un secret de Secrets Manager, consultezStockage AWS Secrets Manager secret des informations d' PagerDuty accès.

  3. Pour le PagerDuty service, sélectionnez le service dans votre PagerDuty compte où vous souhaitez créer l' PagerDuty incident.

  4. Continuez en ajoutant des balises facultatives et en créant le plan de réponse.

Ajouter des balises et créer le plan de réponse

Pour ajouter des balises et créer le plan de réponse
  1. (Facultatif) Dans la zone Balises, appliquez une ou plusieurs paires nom/valeur clé de balise au plan de réponse.

    Les balises sont des métadonnées facultatives que vous affectez à une ressource. Les balises vous permettent de classer une ressource de différentes manières, par exemple en fonction de son objectif, de son propriétaire ou de son environnement. Par exemple, vous pouvez étiqueter un plan de réponse pour identifier le type d'incident qu'il est censé atténuer, les types de canaux d'escalade qu'il contient ou le plan d'escalade qui y sera associé. Pour plus d'informations sur le balisage des ressources d'Incident Manager, consultezMarquage des ressources dans Incident Manager.

  2. Choisissez Créer un plan de réponse.