Qu'est-ce que c'est AWS Systems Manager Incident Manager ? - Incident Manager

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qu'est-ce que c'est AWS Systems Manager Incident Manager ?

Incident Manager, une fonctionnalité de AWS Systems Manager, est conçue pour vous aider à atténuer les incidents affectant vos applications hébergées sur AWS.

Dans le contexte d'un incident AWS, on entend toute interruption ou réduction imprévue de la qualité des services qui peut avoir un impact significatif sur les opérations commerciales. Par conséquent, il est essentiel que les entreprises établissent une stratégie de réponse pour atténuer les incidents et s'en remettre efficacement, et mettre en œuvre des mesures pour prévenir de futurs incidents.

Le gestionnaire d'incidents permet de réduire le délai de résolution des incidents en :

  • Fournir des plans automatisés pour impliquer efficacement les personnes chargées de répondre aux incidents.

  • Fournir des données de dépannage pertinentes.

  • Activation des actions de réponse automatisées à l'aide de runbooks d'automatisation prédéfinis.

  • Fournir des méthodes pour collaborer et communiquer avec toutes les parties prenantes.

Les fonctionnalités et les flux de travail intégrés à Incident Manager sont basés sur les meilleures pratiques de réponse aux incidents développées par Amazon presque depuis sa création. Incident Manager Services AWS s'intègre à Amazon CloudWatch AWS CloudTrail, AWS Systems Manager, et Amazon EventBridge.

Composants et fonctionnalités principaux

Cette section décrit les fonctionnalités d'Incident Manager que vous utilisez pour configurer vos plans de réponse aux incidents.

Plan de réponse

Un plan d'intervention fonctionne comme un modèle qui définit ce qui doit être mis en place en cas d'incident. Il comprend des informations telles que :

  • Qui est tenu d'intervenir en cas d'incident.

  • La réponse automatisée établie pour atténuer l'incident.

  • L'outil de collaboration que les intervenants doivent utiliser pour communiquer et recevoir des notifications automatiques concernant l'incident.

Détection des incidents

Vous pouvez configurer les CloudWatch alarmes Amazon et les EventBridge événements Amazon pour créer des incidents lorsque des conditions ou des modifications affectant vos AWS ressources sont détectées.

Support d'automatisation de Runbook

Vous pouvez lancer des runbooks d'automatisation depuis Incident Manager pour automatiser votre réponse critique aux incidents et fournir des étapes détaillées aux premiers intervenants.

Engagement et escalade

Un plan d'engagement indique à tout le monde qu'il convient de notifier pour chaque incident unique. Vous pouvez spécifier les contacts individuels que vous avez ajoutés à Incident Manager ou spécifier un calendrier d'appel que vous avez créé dans Incident Manager. Les plans d'engagement précisent également une trajectoire d'escalade afin de garantir la visibilité auprès des parties prenantes et une participation active au cours du processus de réponse aux incidents.

Horaires d'astreinte

Un calendrier d'astreinte dans Incident Manager comprend une ou plusieurs rotations que vous créez pour le calendrier. Pour chaque rotation, vous pouvez inclure jusqu'à 30 contacts. Lorsqu'il est ajouté à un plan d'escalade ou à un plan d'intervention, le calendrier d'astreinte définit qui est averti lorsqu'un incident nécessitant l'intervention d'un intervenant survient. Les horaires d'astreinte vous permettent de bénéficier d'une couverture complète, redondante, 24 heures sur 24, 7 jours sur 7, selon les besoins de votre intervention en cas d'incident.

Collaboration active

Les intervenants répondent activement aux incidents grâce à l'intégration avec le AWS Chatbot client. AWS Chatbot prend en charge la création de canaux de discussion pour Incident Manager qui utilisent Slack, Microsoft Teams, ou Amazon Chime. Les intervenants peuvent communiquer directement entre eux, recevoir des notifications automatisées concernant les incidents et, dans Slack and Microsoft Teams—exécute directement certaines opérations de l'interface de ligne de commande d'Incident Manager (CLI).

Diagnostic de l'incident

Les intervenants peuvent consulter les up-to-date informations dans la console Incident Manager lors d'un incident. Sur la base des modifications apportées aux informations, les intervenants peuvent ensuite créer des éléments de suivi et y remédier à l'aide des runbooks d'automatisation.

Conclusions provenant d'autres services

Pour aider les intervenants à diagnostiquer les incidents, vous pouvez activer la fonctionnalité Résultats dans Incident Manager. Les résultats sont des informations sur AWS CodeDeploy les déploiements et les mises à jour de AWS CloudFormation stack survenus au moment d'un incident et impliquant une ou plusieurs ressources probablement liées à l'incident. Le fait de disposer de ces informations réduit le temps nécessaire pour évaluer les causes potentielles, ce qui peut réduire le temps moyen de rétablissement (MTTR) après un incident.

Analyse post-incident

Une fois qu'un incident est résolu, vous utilisez une analyse post-incident pour identifier les améliorations à apporter à votre réponse aux incidents, notamment le délai de détection et d'atténuation. Une analyse peut également vous aider à comprendre la cause première des incidents. Incident Manager crée des mesures de suivi recommandées que vous pouvez utiliser pour améliorer votre réponse aux incidents.

Avantages de l'utilisation d'Incident Manager

Découvrez les avantages de l'utilisation d'Incident Manager dans le cadre de vos opérations de détection et de réponse aux incidents.

Cette section décrit les avantages que votre organisation peut tirer de la mise en œuvre d'un plan de réponse Incident Manager.

Diagnostiquez les problèmes de manière efficace et immédiate

CloudWatch Les alarmes Amazon et EventBridge les événements Amazon que vous configurez peuvent créer des incidents automatiquement en cas d'interruption imprévue ou de réduction de la qualité de vos services.

CloudWatch les alarmes détectent et signalent les modifications apportées à la valeur de la métrique ou de l'expression par rapport à un seuil sur un certain nombre de périodes. EventBridge les événements sont créés à la suite de modifications apportées à un environnement, à une application ou à un service que vous avez spécifié dans une EventBridge règle. Lorsque vous créez une alarme ou un événement, vous pouvez spécifier une action pour un incident à créer dans Incident Manager et le plan de réponse approprié pour faciliter l'engagement, l'escalade et l'atténuation de l'incident.

Incident Manager permet de collecter et de suivre automatiquement les métriques liées à un incident, grâce à l'utilisation de CloudWatch métriques. Outre les métriques automatisées générées pour l'incident lorsqu'il est créé par le biais CloudWatch d'une alarme, vous pouvez ajouter des métriques manuellement en temps réel, afin de fournir un contexte et des données supplémentaires aux intervenants lors d'un incident.

Utilisez la chronologie des incidents d'Incident Manager pour afficher les points d'intérêt par ordre chronologique. Les intervenants peuvent également utiliser la chronologie pour ajouter des événements personnalisés afin de décrire ce qu'ils ont fait ou ce qui s'est passé. Les points d'intérêt automatisés incluent :

  • Une CloudWatch alarme ou une EventBridge règle crée un incident.

  • Les mesures relatives aux incidents sont communiquées à Incident Manager.

  • Les intervenants sont mobilisés.

  • Les étapes de Runbook se sont terminées avec succès.

Engagez-vous efficacement

Incident Manager réunit les intervenants en cas d'incident grâce à l'utilisation de contacts, de calendriers d'appel, de plans d'escalade et de canaux de discussion. Vous définissez des contacts individuels directement dans Incident Manager et définissez les préférences de contact (e-mail ou voix). SMS Vous ajoutez des contacts aux rotations des horaires d'astreinte afin de déterminer qui est chargé de traiter les incidents au cours d'une période donnée. À l'aide de vos contacts définis et de vos horaires d'astreinte, vous créez des plans d'escalade pour engager les intervenants nécessaires au bon moment lors d'un incident.

Collaborez en temps réel

La communication lors d'un incident est la clé d'une résolution plus rapide. Utilisation d'un AWS Chatbot client configuré pour utiliser Slack, Microsoft Teams, ou Amazon Chime, vous pouvez réunir les intervenants sur leur canal de discussion connecté préféré, où ils interagissent directement avec l'incident et entre eux. Incident Manager affiche également les actions en temps réel des intervenants sur le canal de discussion, fournissant ainsi un contexte aux autres.

Automatisez la restauration des services

Incident Manager permet à vos intervenants de se concentrer sur les tâches clés requises pour résoudre un incident grâce à l'utilisation de runbooks d'automatisation. Dans Incident Manager, les runbooks sont une série prédéfinie d'actions entreprises pour résoudre un incident. Ils combinent la puissance des tâches automatisées avec des étapes manuelles selon les besoins, ce qui permet aux intervenants d'être plus disponibles pour analyser et réagir à l'impact.

Prévenir les futurs incidents

Grâce à l'analyse post-incident d'Incident Manager, votre équipe peut développer des plans de réponse plus robustes et apporter des modifications à vos applications afin de prévenir de futurs incidents et interruptions de service. L'analyse post-incident permet également un apprentissage itératif et une amélioration des runbooks, des plans de réponse et des métriques.

Incident Manager s'intègre à plusieurs services et outils tiers pour vous aider à détecter et à résoudre les incidents, à interagir indirectement avec ses API opérations et à gérer l'infrastructure. Services AWS Pour plus d’informations, veuillez consulter Intégrations de produits et de services avec Incident Manager.

Accès au gestionnaire d'incidents

Vous pouvez accéder à Incident Manager de l'une des manières suivantes :

Régions et quotas du gestionnaire d'incidents

Incident Manager n'est pas pris en Régions AWS charge dans tous les cas par Systems Manager.

Pour consulter des informations sur les régions et les quotas d'Incident Manager, consultez la section AWS Systems Manager Incident Manager Points de terminaison et quotas dans le Référence générale d'Amazon Web Services.

Tarification pour Incident Manager

L'utilisation d'Incident Manager est payante. Pour plus d'informations, consultez la section Tarification de AWS Systems Manager.

Note

Les autres Services AWS AWS contenus et les contenus tiers mis à disposition dans le cadre de ce service peuvent être soumis à des frais distincts et régis par des conditions supplémentaires.

Pour obtenir une vue d' Trusted Advisor ensemble d'un service qui vous aide à optimiser les coûts, la sécurité et les performances de votre AWS environnement, consultez AWS Trusted Advisorle guide de AWS Support l'utilisateur.