本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Incident Manager 中为事件做准备
事件规划早在事件生命周期之前就已开始。如下图所示,在开始响应事件之前,您需要通过设置聊天频道、创建升级计划、指定联系人以及确定用于事件响应的自动化运行手册来做好准备。然后,使用响应计划来指定如何进行监控以及响应是否是自动进行的。修复完成后,您可以分析事件和事件响应,以进一步完善针对未来事件的响应计划。
主题
监控
监控 AWS 托管应用程序的运行状况是确保应用程序正常运行时间和性能的关键。在确定监控解决方案时,请注意以下事项:
-
特征的严重性——如果系统发生故障,对下游用户的影响将有多严重。
-
故障的共同性——系统发生故障的频率;需要经常干预的系统应受到密切监控。
-
延迟时间增加——完成一项任务的时间增加或减少了多少。
-
客户端指标与服务器端指标——如果客户端和服务器上的相关指标之间存在差异。
-
依赖性故障——您的团队可以而且应该做好准备的故障。
创建响应计划后,您可以使用监控解决方案在环境中发生事件时自动跟踪事件。有关事件跟踪和创建的更多信息,请参阅 在事件管理器控制台中查看事件详细信息。
有关构建安全、高性能、有弹性和高效的基础架构应用和工作负载的更多信息,请参阅 Well-Architected。AWS