OPS08-BP04 创建可操作的警报

及时检测和响应应用程序行为的偏差至关重要。尤其重要的是，识别基于关键绩效指标 (KPIs) 的结果何时处于危险之中或何时出现意想不到的异常。基于警报KPIs可确保您收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应，并有助于维护系统性能和可靠性。

预期结果：收到及时、相关且可操作的警报，以便快速识别和缓解潜在问题，尤其是在KPI结果面临风险时。

常见反模式：

设置过多非关键警报，导致警报疲劳。
没有根据警报来确定警报的优先级KPIs，因此很难理解问题对业务的影响。
忽视解决根本原因，导致针对同一问题出现重复警报。

建立此最佳实践的好处：

关注可操作的相关警报，减少警报疲劳。
主动检测和缓解问题，增加系统的正常运行时间并提高可靠性。
与常用的警报和通信工具集成，增强团队协作并更快解决问题。

在未建立这种最佳实践的情况下暴露的风险等级：高

实施指导

要创建有效的警报机制，使用指标、日志和跟踪数据来标记基于KPIs的结果何时存在风险或检测到异常，这一点至关重要。

实施步骤

确定关键性能指标 (KPIs)：确定您的应用程序的关键性能指标KPIs。警报应与这些警报相关联，KPIs以准确反映业务影响。
实施异常检测：
- 使用 Amazon CloudWatch 异常检测：将 Amazon CloudWatch 异常检测设置为自动检测异常模式，这可以帮助您仅针对真实异常生成警报。
- 使用 AWS X-Ray 见解：
  1. 设置 X-Ray Insights，检测跟踪数据中的异常。
  2. 配置 X-Ray Insights 的通知，以便在检测到问题时收到警报。
- 与 Amazon DevOps Guru 集成：
  1. 利用 Amazon DevOps Guru 的机器学习功能，利用现有数据检测操作异常。
  2. 在 DevOps Guru 中导航到通知设置以设置异常警报。
实施可操作的警报：设计能够提供足够信息的警报，以便立即采取行动。
1. 使用 Amazon EventBridge 规则监控AWS Health 事件，或者以编程方式与集成 AWS Health API，以便在收到 AWS Health 事件时自动执行操作。这些可以是常规操作，例如将所有计划的生命周期事件消息发送到聊天界面，也可以是特定操作，例如在 IT 服务管理工具中启动工作流程。
减少警报疲劳：尽量减少非关键警报。团队接收到大量无关紧要的警报时，他们可能无法监督关键问题，从而降低警报机制的整体有效性。
设置复合警报：使用 Amazon CloudWatch 复合警报合并多个警报。
与警报工具集成:整合诸如 Ops Genie 和 PagerDuty.
参与 AWS Chatbot：集成AWS Chatbot以将警报传递给亚马逊 Chime、Microsoft Teams 和 Slack。
基于日志的警报：使用中的 CloudWatch 日志指标筛选器根据特定的日志事件创建警报。
审查和迭代：定期重新审视和完善警报配置。

实施计划的工作量级别：中

资源

相关最佳实践：

相关文档：

相关视频：

相关示例：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

OPS08-BP03 分析工作负载跟踪

OPS08-BP05 创建仪表板