在事件管理器中创建和配置响应计划 - Incident Manager

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在事件管理器中创建和配置响应计划

响应计划允许您计划如何响应影响用户的事件。响应计划就像一个模板,其中包含有关参与人员、事件的预期严重程度、要启动的自动运行手册以及要监控的指标等信息。

最佳实践

提前计划事件时,可以减少事件对团队的影响。在设计响应计划时,团队应考虑以下最佳实践。

  • 简化互动——确定最适合处理事件的团队。如果您互动的分发名单太广,或者您互动的团队不对,就会在事件中造成混乱,浪费响应者的时间。

  • 可靠的上报——对于响应计划中的互动,我们建议您选择互动计划,而不是联系人或待命时间表。互动计划应明确在事件发生期间要参与的个人联系人或待命时间表(其中包含多个轮换联系人)。由于有时可能无法联系到您的互动计划中指定的响应者,因此您应在响应计划中配置备用响应者,以应对这些情况。有了备用联系人,如果无法联系主要联系人和次要联系人,或出现其他意外中断,Incident Manager 仍会将事件通知联系人。

  • 运行手册——使用运行手册提供可重复、易于理解的步骤,以减轻响应者在事件期间所承受的压力。

  • 协作——使用聊天频道简化事件期间的沟通。聊天频道可帮助响应者及时了解最新信息。他们还可以通过这些频道与其他响应者共享信息。

制定响应计划

使用以下步骤创建响应计划并自动执行事件响应。

要创建响应计划
  1. 打开 Incident Manager 控制台并在导航栏中选择响应计划

  2. 选择创建响应计划

  3. 在 “名称” 中,输入一个唯一且可识别的响应计划名称,以便在响应计划的亚马逊资源名称 (ARN) 中使用。

  4. (可选)在显示名称中,输入更易于理解的名称,以帮助您在创建事件时识别响应计划。

  5. 继续为事件记录指定默认值

指定事件默认值

为了帮助您更有效地管理事件,您可以指定默认值。Incident Manager 将这些值应用于与响应计划关联的所有事件。

要指定事件默认值
  1. 标题中,输入该事件的标题,以帮助您在 Incident Manager 主页上识别该事件。

  2. 影响中,选择影响级别以指明根据该响应计划创建的事件的潜在范围,例如严重。有关 Incident Manager 中影响级别的信息,请参阅 分类

  3. (可选)在摘要中,输入根据该响应计划创建的事件类型的简短摘要。

  4. (可选)对于重复数据删除字符串,输入重复数据删除字符串。Incident Manager 使用此字符串来防止相同的根本原因在同一个账户中创建多个事件。

    重复数据删除字符串是系统用来检查重复事件的术语或短语。如果您指定重复数据删除字符串,Incident Manager 会在创建事件时在 dedupeString 字段中搜索包含相同字符串的未解决事件。如果检测到重复事件,Incident Manager 会删除较新事件的重复数据到现有事件中。

    注意

    默认情况下,事件管理器会自动删除由同一 Amazon CloudWatch 警报或亚马逊事件创建的多个事件的重复数据。 EventBridge 您无需输入自己的重复数据删除字符串即可防止这些资源类型出现重复。

  5. (可选)在事件标签下,添加要分配给根据该响应计划创建的事件的标签密钥和值。

    您必须拥有事件记录资源的 TagResource 权限,才能在响应计划中设置事件标签。

  6. 继续指定一个可选的聊天频道,供解决者就事件相互沟通。

(可选)指定事件响应聊天频道

当您在响应计划中加入聊天频道时,响应者会通过该频道接收事件更新。他们可以使用聊天命令直接从聊天频道与事件互动。

使用 AWS Chatbot,你可以为以下内容创建频道 Slack,对于 Microsoft Teams,或者让 Amazon Chime 在你的回应计划中使用。有关在中创建聊天频道的信息 AWS Chatbot,请参阅《AWS Chatbot 管理员指南》

重要

事件经理必须有权发布到聊天频道的亚马逊简单通知服务 (AmazonSNS) 主题。如果没有发布该SNS主题的权限,则无法将其添加到响应计划中。事件管理器向SNS主题发布测试通知以验证权限。

有关聊天频道的更多信息,请参阅 在事件管理器中为响应者创建和集成聊天频道

要指定事件响应聊天频道
  1. 对于聊天频道,选择一个 AWS Chatbot 聊天频道,响应者可以在事件发生期间进行交流。

    提示

    要在中创建新的聊天频道 AWS Chatbot,请选择配置新的 Chatbot 客户端

  2. 对于聊天频道SNS话题,请选择在事件发生期间向其发布的其他SNS主题。如果事件发生时某个区域已关闭,则在多个中添加SNS主题 AWS 区域 会增加冗余。

  3. 继续选择在事件发生时需要联系的联系人、待命时间表和上报计划

(可选)选择与事件响应互动的资源

在事件发生时,务必要确定最合适的响应者。我们建议您采取以下措施作为最佳实践:

  1. 在上报计划中添加联系人和待命时间表作为上报渠道。

  2. 选择上报计划作为响应计划的互动方式。

有关联系人和上报计划的更多信息,请参阅 在事件管理器中创建和配置联系人在事件管理器中为响应者参与制定升级计划

要选择与事件响应互动的资源
  1. 对于互动,选择任意数量的上报计划、待命时间表和个人联系人。

  2. 继续选择性地指定一个运行手册,作为事件缓解措施的一部分来运行。

(可选)指定事件缓解措施的运行手册

您可以使用 A AWS Systems Manager ut omation 中的运行手册(一项功能)来自动执行 AWS Cloud 环境中的常见应用程序和基础架构任务。 AWS Systems Manager

每个运行手册都定义了运行手册工作流程。运行手册工作流程包括 Systems Manager 对您的托管节点或其他 AWS 资源类型执行的操作。在 Incident Manager 中,运行手册推动事件响应和缓解措施。

有关在响应计划中使用运行手册的更多信息,请参阅 将 Systems Manager 自动化运行手册集成到事件管理器中以进行事故补救

要指定事件缓解措施的运行手册:

  1. 对于运行手册,请执行以下操作之一:

    • 选择从模板中克隆运行手册,复制默认的 Incident Manager 运行手册。在运行手册名称中,为新运行手册输入描述性名称。

    • 选择选择现有运行手册。选择要使用的所有者运行手册版本

      提示

      要从头开始创建运行手册,请选择配置新运行手册

      有关创建运行手册的更多信息,请参阅 将 Systems Manager 自动化运行手册集成到事件管理器中以进行事故补救

  2. 参数区域中,提供所选运行手册所需的任何参数。

    可用的参数由运行手册指定。一个运行手册可能需要的参数可能与另一个运行手册不同。有些参数可能是必填参,而另一些则是可选参数。

    在许多情况下,您可以选择手动输入参数的静态值,例如 Amazon EC2 实例列表IDs。您也可以让 Incident Manager 提供事件动态生成的参数值。

  3. (可选)对于 AutomationAssumeRole,请指定要使用的 AWS Identity and Access Management (IAM) 角色。该角色必须具有运行手册中指定的各个命令所需的权限。

    注意

    如果未指定 AssumeRole,Incident Manager 会尝试使用运行手册服务角色来运行运行手册中指定的各个命令。

    请从以下内容中选择:

    • 输入ARN值 — 按照格式手动输入的 AssumeRole亚马逊资源名称 (ARN) arn:aws:iam::account-id:role/assume-role-name。例如,arn:aws:iam::123456789012:role/MyAssumeRole

    • 使用现有服务角色——从账户现有角色列表中选择一个具有所需权限的角色。

    • 创建新的服务角色-从 AWS 托管策略中进行选择以附加到您的 AssumeRole。选择此选项后,对于 AWS 托管式策略,请从列表中选择一个或多个策略。

      您可以接受建议的新角色默认名称,也可以输入自己选择的名称。

      注意

      该新运行手册的服务角色与您选择的特定运行手册相关联。它不能用于不同的运行手册。这是因为策略的资源部分不支持其他运行手册。

  4. 对于 Runbook 服务IAM角色,请指定用于提供访问和启动 runbook 本身工作流程所需的权限的角色。

    至少,该角色必须允许对您的特定运行手册执行 ssm:StartAutomationExecution 操作。要使运行手册跨账户运行,该角色还必须允许您在 在事件管理器 AWS 账户 中管理跨地区的事件 期间创建的 AWS-SystemsManager-AutomationExecutionRole 角色执行 sts:AssumeRole 操作。

    请从以下内容中选择:

    • 创建新的服务角色——Incident Manager 为您创建一个运行手册的服务角色,其中包括启动运行手册工作流程所需的最低权限。

      对于角色名称,您可以接受建议的默认名称,也可以输入自己选择的名称。我们建议使用建议的名称或在名称中保留运行手册的名称。这是因为新 AssumeRole 的 runbook 与您选择的特定 runbook 相关联,并且可能不包含其他 runbook 所需的权限。

    • 使用现有服务角色-您或事件管理员之前创建的IAM角色授予所需权限。

      角色名称中,选择要使用的现有角色的名称。

  5. 展开 “其他选项”,然后选择以下选项之一,以指定 runbook 工作流程的运行 AWS 账户 位置。

    • 响应计划所有者的帐户-在创建响应计划的所有者中启动运行手册工作流程。 AWS 账户

    • 受影响的帐户——在开始或报告事件的账户中启动运行手册工作流程。

      当您使用 Incident Manager 处理跨账户场景,且运行手册需要访问受影响的账户中的资源进行补救时,请选择受影响的账户

  6. 继续将 PagerDuty 服务集成到响应计划中

(可选)将 PagerDuty 服务集成到响应计划中

将 PagerDuty 服务整合到响应计划中

将事件管理器与集成时 PagerDuty,每当事件管理器 PagerDuty 创建事件时,都会创建相应的事件。中的事件除了在事件管理器中定义的寻呼工作流程和升级策略外,还 PagerDuty 使用您在其中定义的寻呼工作流程和升级策略。 PagerDuty 附上事件管理器中的时间轴事件作为事件备注。

  1. 展开第三方集成,然后选中 “启用 PagerDuty 集成” 复选框。

  2. 在 Select secret AWS Secrets Manager 中,选择存储用于访问 PagerDuty 账户的凭据的密钥。

    有关将您的 PagerDuty 证书存储在 Secrets Manager 密钥中的信息,请参阅将 PagerDuty 访问凭证存储在 AWS Secrets Manager 密钥中

  3. 要获得PagerDuty 服务,请从您的 PagerDuty 账户中选择要在其中创建 PagerDuty 事件的服务。

  4. 继续添加可选标签并创建响应计划

添加标签并创建响应计划

要添加标签并创建响应计划
  1. (可选)在标签 区域,将一个或多个标签密钥名称/值对应用到响应计划。

    标签是您分配给资源的可选元数据。通过标签,您可以按各种标准(如用途、所有者或环境)对资源进行分类。例如,您可能想要标记一个响应计划,以确定其旨在缓解的事件类型、所包含的上报渠道类型或与之相关的上报计划。有关标记 Incident Manager 资源的更多信息,请参阅 在 Incident Manager 中标记资源

  2. 选择创建响应计划