什么是 AWS Systems Manager Incident Manager? - Incident Manager

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 AWS Systems Manager Incident Manager?

Incident Manager 是 AWS Systems Manager 的一项功能,可帮助您减轻影响 AWS 托管应用程序的事件并从中恢复。

就 AWS 而言,事件是指可能对业务运营产生重大影响的任何意外中断或服务质量下降。因此,组织必须制定应对策略,以有效缓解并从中恢复过来,采取措施防止将来发生事件。

Incident Manager 通过以下方式帮助缩短解决事件的时间:

  • 提供自动化计划,让负责响应事件的人员高效进行互动。

  • 提供相关的故障排除数据。

  • 使用预定义的自动化运行手册,启用自动响应操作。

  • 提供与所有利益相关者合作和沟通的方法。

Incident Manager 内置的特征和工作流程基于 Amazon 自成立以来一直在开发的事件响应最佳实践。Incident Manager 与 Amazon CloudWatch、AWS CloudTrail、AWS Systems Manager 和 Amazon EventBridge 等 AWS 服务 集成。

主要组件和特征

该部分介绍 Incident Manager 中用于设置事件响应计划的特征。

响应计划

响应计划作为模板,用于定义事件发生时必须采取的措施。它包括以下信息:

  • 事件发生时谁需要做出响应。

  • 为缓解事件而建立的自动化响应。

  • 响应者必须使用用于沟通和接收有关事件的自动通知的协作工具。

事件检测

您可以配置 Amazon CloudWatch 警报和 Amazon EventBridge 事件,以便在检测到影响 AWS 资源的条件或变化时创建事件。

运行手册自动化支持

您可以从 Incident Manager 中启动自动化运行手册,自动对事件做出关键响应,并为第一响应者提供详细的步骤。

互动和上报

互动计划规定了每个独特事件都要通知所有人。您可以指定已添加到 Incident Manager 的单个联系人,也可以指定在 Incident Manager 中创建的待命时间表。互动计划还规定了上报路径,以帮助确保在事件响应过程中利益相关者的可见性和积极参与。

待命时间表

Incident Manager 中的待命时间表由您为该计划创建的一个或多个轮换组成。每次轮换最多可包括 30 个联系人。在上报计划或响应计划中加入待命时间表后,就能确定在发生需要响应者干预的事件时,谁会收到通知。待命时间表有助于确保您根据事件响应的需要获得全面、冗余的全天候服务。

积极协作

事件响应者通过与 AWS Chatbot 客户端集成,积极应对事件。AWS Chatbot 支持为 Incident Manager 创建使用 Slack、Microsoft Teams 或 Amazon Chime 的聊天渠道。响应者可以直接相互通信,接收有关事件的自动通知,并在 Slack 和 Microsoft Teams 中直接运行一些 Incident Manager 命令行界面 (CLI) 操作。

事件诊断

事件发生期间,响应者可以在 Incident Manager 控制台中查看最新信息。然后,响应者可以根据信息的变化创建后续项目,并使用自动化运行手册对其进行补救。

其他服务的调查发现

为了支持响应者的事件诊断,您可以在 Incident Manager 中启用调查发现特征。调查发现是有关在事件发生前后发生的 AWS CodeDeploy 部署和 AWS CloudFormation 堆栈更新的信息,这些信息涉及一个或多个可能与事件相关的资源。掌握这些信息可以减少评估潜在原因所需的时间,从而缩短从事件中恢复的平均时间 (MTTR)。

事件后分析

在事件解决后,您可以使用事件后分析来确定事件响应的改进措施,包括检测和缓解时间。分析还可以帮助您了解事件的根本原因。Incident Manager 会创建建议的后续行动项目,您可以利用这些项目改进事件响应。

使用 Incident Manager 的好处

了解在事件检测和响应操作中使用 Incident Manager 的好处。

该部分介绍在实施 Incident Manager 响应计划时,您的组织可以获得的优势。

即时有效地诊断问题

当出现意外中断或服务质量下降时,您配置的 Amazon CloudWatch 警报和 Amazon EventBridge 事件可自动创建事件。

当指标或表达式的值在多个时间段内相对于阈值发生变化时,CloudWatch 警报会进行检测和报告。EventBridge 事件是由于您在 EventBridge 规则中指定的环境、应用程序或服务发生变化而创建的。创建警报或事件时,可以指定在 Incident Manager 中创建事件的操作以及适当的响应计划,以促进事件的互动、上报和缓解。

通过使用 CloudWatch 指标,Incident Manager 能够自动收集和跟踪与事件相关的指标。除了通过 CloudWatch 警报创建事件时自动生成的指标外,您还可以实时手动添加指标,为事件响应者提供更多的上下文和数据。

使用 Incident Manager 事件时间轴按时间顺序显示关注点。响应者还可以使用时间轴添加自定义事件,以描述他们所做的事情或发生的事情。自动关注点包括:

  • CloudWatch 警报或 EventBridge 规则会创建事件。

  • 事件指标将报告给 Incident Manager。

  • 响应者进行互动。

  • 运行手册步骤成功完成。

有效互动

Incident Manager 通过使用联系人、待命时间表、上报计划和聊天渠道将事件响应者聚集在一起。您可以直接在 Incident Manager 中定义单个联系人,并指定联系人首选项(电子邮件、短信或语音)。您可以将联系人添加到待命时间表轮换中,以确定在特定时间段内由谁处理事件。使用已定义的联系人和待命时间表,您可以制定上报计划,以便在事件发生期间的正确时间与必要的响应者互动。

实时协作

事件期间的沟通是更快解决问题的关键。通过使用 Slack、Microsoft Teams 或 Amazon Chime 设置 AWS Chatbot 客户端,您可以将响应者聚集到他们首选的联网聊天频道中,让他们可以直接与事件以及彼此互动。Incident Manager 还会在聊天频道中显示事件响应者的实时行动,为其他人提供上下文信息。

自动恢复服务

Incident Manager 通过使用自动化运行手册,使您的响应者能够专注于解决事件所需的关键任务。在 Incident Manager 中,运行手册是为解决事件而预定义的一系列操作。它们根据需要将自动任务的强大功能与手动步骤相结合,使响应者有更多时间进行分析和应对影响。

防止未来事件

通过使用 Incident Manager 进行事件后分析,您的团队可以制定更强大的响应计划,并在整个应用程序中进行更改,以防止未来发生事件和停机。事后分析还有助于迭代学习和改进运行手册、响应计划和指标。

Incident Manager 与其他一些 AWS 服务 和第三方服务及工具集成,可帮助您检测和解决事件,并间接与其 API 操作进行交互和管理基础设施。有关信息,请参阅 产品和服务与 Incident Manager 集成

访问 Incident Manager

您可以使用以下任一方式访问 Incident Manager:

Incident Manager 区域和配额

Systems Manager 支持的所有 AWS 区域 均不支持 Incident Manager。

要查看有关 Incident Manager 区域和配额的信息,请参阅 Amazon Web Services 一般参考 中的AWS Systems Manager Incident Manager 端点和配额

Incident Manager 的定价

使用 Incident Manager 需要付费。有关更多信息,请参阅 AWS Systems Manager 的定价

注意

与该服务相关的其他 AWS 服务、AWS 内容和第三方内容可能需要单独收费,并受其他条款约束。

Trusted Advisor 服务可帮助您优化 AWS 环境的成本、安全性和性能,如需了解该服务的概述,请参阅《AWS Support 用户指南》中的 AWS Trusted Advisor