Grafana 10 版本中的警报 - Amazon Managed Grafana

Grafana 10 版本中的警报

本文档主题专为支持 Grafana 10.x 版本的 Grafana 工作区而设计。

对于支持 Grafana 9.x 版本的 Grafana 工作区,请参阅 使用 Grafana 版本 9

对于支持 Grafana 8.x 版本的 Grafana 工作区,请参阅 使用 Grafana 版本 8

在 Grafana v10 中,Amazon Managed Grafana 允许访问更新的警报系统 Grafana Alerting,该系统将警报信息集中在一个可搜索的视图中。Grafana Alerting 在 Grafana v8 中作为一项可选功能推出,GrafanaLabs 已宣布在版本 11 中删除旧版警报系统。

注意

本文档介绍了 Grafana Alerting。有关旧版警报的信息,请参阅 经典控制面板警报

通过 Grafana Alerting,您可以在系统出现问题后立即了解情况。

监控传入的指标数据或日志条目,设置警报系统来监视特定事件或情况,然后在发现这些情况时发送通知。

这样,您就不再需要人工监控,还可以为系统中断或可能演变成重大事故的变更提供了第一道防线。

借助 Grafana Alerting,您可以从多个数据来源创建查询和表达式,无论数据存储在何处,都能够以新颖和独特的方式灵活组合数据,并针对指标和日志发出警报。然后,您可以从单一的整合视图中创建、管理和处理警报,从而提高团队快速发现和解决问题的能力。

通过 Mimir 和 Loki 警报规则,您可以更好地监控数据,并大规模警运行警报表达式,所有这些都由您所熟悉的 Grafana UI 管理。

注意

如果您是从早期版本的 Grafana 迁移过来,在早期版本中使用的是旧版 Grafana Alerting,那么了解旧版警报系统和新版 Grafana Alerting 之间的区别可能会有所帮助。

主要功能和优势

单页显示所有警报

单个 Grafana Alerting 页面将 Grafana 管理的警报和驻留在兼容 Prometheus 的数据来源中的警报整合到一个位置。

多维警报

警报规则可为每个警报规则创建多个单独的警报实例(称为多维警报),让您只需一个警报规则,就能获得对整个系统的可见性。为此,您可以在查询中添加标签以指定正在监控哪个组件,并为单个警报规则生成多个警报实例。例如,如果要监控集群中的每台服务器,则多维警报将针对每个 CPU 发出警报,而标准警报将针对整个服务器发出警报。

路由警报

根据您定义的标签,将每个警报实例路由到特定的联系点。通知策略是一组规则,规定了在何处、何时以及如何将警报分组并路由到联系点。

静默警报

静默会阻止创建通知,且只能在指定的时间段内持续。您可以通过静默停止接收来自一个或多个警报规则的持续通知。您也可以根据特定标准部分暂停警报。静默有自己的专用部分,以便更好地整理和查看,让您可以扫描暂停的警报规则,而不会使主警报视图混乱。

静音定时

静音定时是一个重复的时间间隔,在此期间,不会针对某个策略生成或发送新的通知。使用静音定时可防止警报在特定的重复时间段(如定期维护时间段)内触发。

与静默类似,静音定时不会阻止对警报规则进行评估,也不会阻止警报实例显示在用户界面中。只会阻止创建通知。

设计警报系统

监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此,建立一个有效的警报管理系统至关重要,在出现问题时发出通知,以免对业务成果造成影响。

设计和配置有效的警报管理设置需要时间。

以下是有关如何为您的企业创建有效的警报管理设置的一些提示:

您想要监控和发出警报的业务关键指标有哪些?

  • 查找需要了解的重要事件,避免过于琐碎或频繁,以至于收件人忽略这些事件。

  • 仅为需要立即关注或干预的重大事件创建警报。

  • 考虑质量而不是数量。

您想使用哪种类型的警报?

  • 选择 Grafana 管理的警报或 Grafana Mimir 或 Loki 管理的警报或二者。

您想如何整理警报和通知?

  • 选择性地设置接收警报的对象。考虑将其发送给随时待命的人员或特定的 Slack 频道。

  • 使用 Alerting API 或警报即代码(Terraform)尽可能自动化。

如何减少警觉疲劳?

  • 使用静默、静音定时或暂停警报规则评估,避免发出不必要的噪音警报。

  • 不断调整警报规则,查看有效性。删除警报规则,避免警报重复或无效。

  • 仔细考虑优先级和严重性级别。

  • 持续查看阈值和评估规则。

Grafana Alerting 限制

  • 聚合来自其他系统的规则时,Grafana Alerting 系统可以从所有可用的 Amazon Managed Service for Prometheus、Prometheus、Loki 和 Alertmanager 数据来源中检索规则。但可能无法从其他受支持的数据来源获取规则。