在 Incident Manager 中执行事件后分析 - Incident Manager

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Incident Manager 中执行事件后分析

事件后分析将指导您确定事件响应的改进措施,包括检测和缓解时间。分析还可以帮助您了解事件的根本原因。Incident Manager 会创建建议的操作项目,以改善您的事件响应。

事件后分析的好处
  • 改进事件响应

  • 了解问题的根本原因

  • 使用可交付的措施项解决根本原因

  • 分析事件的影响

  • 在组织内收集和分享学习成果

哪些情况不能进行分析

分析不会指责任何人,也不会提出任何人的姓名。

“无论我们发现了什么,我们都理解并真正相信,每个人都尽了自己最大的努力,考虑到了他们当时所知道的情况、他们的技能和能力、可用的资源以及当时的情况。” ——Norm Kerth,《项目回顾:团队审查手册》

分析详细信息

分析详细信息页面可指导您收集信息、评估改进措施和创建行动项目。分析详细信息页面与事件详细信息类似,但有一些主要区别,例如历史指标、可编辑的时间轴以及改进未来事件的问题。

概述

概述是事件的摘要。该摘要包括背景、发生了什么、为什么发生、如何缓解、持续时间以及防止事件再次发生的关键行动项目。概述是高层次的。您将在分析的问题选项卡中浏览更多详细信息。

指标

使用指标选项卡可视化事件持续时间内应用程序中的密钥指标。您可以在此添加指标图表,在同一图表中描述一个或多个指标。事件期间使用的指标会自动填入在该选项卡上。我们建议您在事件发生期间添加描述、标题和关键时间点的注释。

在分析指标图表时可以考虑的一些关键时间点:

  • 部署变更

  • 配置更改

  • 事件开始时间

  • 警报时间

  • 互动时间

  • 缓解开始时间

  • 事件解决时间

限制
  • CloudWatch 警报和指标表达式不会从事件中导入。

  • Incident Manager 不支持的区域中的指标不会从事件中导入。

  • 应用程序账户中的指标要求在创建分析之前配置 CloudWatch-CrossAccountSharingRole。有关该角色的更多信息,请参阅《CloudWatch 用户指南》中的跨账户跨区域 CloudWatch 控制台

时间轴

在深入了解事件时,请描述时间轴上的关键时间点。事件时间轴会自动填入该选项卡。您可以删除与分析无关的时间点。您还可以添加和编辑时间点,以便更准确地描述事件及其影响。

使用时间轴选项卡回答您在问题选项卡上查找的有关事件响应的问题。

问题

使用 Incident Manager 问题可缩短解决应用程序中事件的时间,并减少事件的发生。回答问题时,请更新指标时间轴选项卡以确保准确性。这些问题侧重于事件响应的以下关键方面:

  • 检测——您能否缩短检测时间? 是否更新了可以更快地检测到事件的指标和警报?

  • 诊断——您能否缩短诊断时间? 您的响应计划或上报计划是否有更新,可以更快地与正确的响应者进行互动?

  • 缓解——您能否缩短缓解时间? 是否有可以添加或改进的运行手册步骤?

  • 预防——您能否防止未来事件的发生? 为了发现事件的根本原因,Amazon 在问题调查中采用了“5 个为什么”的方法。

操作

Incident Manager 会创建建议的操作项目供您在完成问题时查看。您可以选择通过该选项卡接受并完成这些操作,也可以取消这些操作。您可以通过选择已撤销的措施项目来查看已撤销的措施项目。操作项目是一种与 OpsCenter 中的分析和事件相关联的 OpsItem。

清单

在结束分析之前,请使用清单查看响应者应采取的操作。当响应者完成清单中的操作时,操作旁边的图标会从省略号变为复选标记,表示操作已完成。如果您尚未完成清单项目,Incident Manager 会显示一条消息,确认响应者希望在不完成分析的情况下关闭分析。

分析模板

分析模板提供了一组问题,深入探讨了事件的根本原因。您可以使用这些问题的答案来改善应用程序性能和事件响应。

AWS 标准模板

Incident Manager 提供了一个基于 AWS 事件响应和问题分析最佳实践的标准问题模板,标题为 AWSIncidents-PostIncidentAnalysisTemplate

创建分析模板

我们鼓励您使用默认 AWSIncidents-PostIncidentAnalysisTemplate 模板并添加适合您的用例的其他问题或部分。基于默认模板创建分析模板使用该模板作为起点在管理账户中创建分析模板。然后,您可以将分析模板复制到启用 Incident Manager 的每个区域。

创建分析模板
  1. 调用 GetDocument 操作并使用其 Name 参数下载 AWSIncidents-PostIncidentAnalysisTemplate。有关 GetDocument 语法的更多信息,请参阅 Systems Manager API 参考

  2. 响应中的内容包含用于分析的 JSON 构建块。使用问题构建块在分析中插入其他问题。我们建议您在 Incident questions 部分添加问题或章节。

  3. 要创建新模板,请使用上一步中更新的 JSON 的 CreateDocument 操作。您必须包括以下内容,其中 Analysis_Template_Name 是您的模板的名称,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

创建分析。

  1. 要创建分析,请从已关闭事件的事件详细信息页面中选择创建分析

  2. 选择用于创建该分析的分析模板,然后输入分析的描述性名称。

  3. 选择创建

您可以生成一份格式适合打印的完整或不完整分析副本。您也可以将此副本另存为 PDF。您可以一次打印一个分析。当前不支持批量打印多个分析。

要打印格式化分析
  1. 打开 Incident Manager 控制台

  2. 选择分析选项卡。

  3. 选择要打印的分析标题。

  4. 在分析详细信息页面的右上角,选择打印

  5. 打印事件分析对话框中,清除不想包含在打印版本中的分析部分。默认情况下,所有部分都处于选中状态。

  6. 选择打印以打开设备的本地打印控件。

  7. 选择您的打印目的地或格式。您可以选择本地或网络打印机,也可以将分析结果保存为 PDF。如果需要,可以对剩余的打印选项进行任何更改,然后选择打印

    注意

    本地打印控件是指您的网络浏览器和设备提供的用户界面。

    打印目的地是针对您的设备配置并可从您的设备访问的目的地。