Grafana 10 版本中的警报
本文档主题专为支持 Grafana 10.x 版本的 Grafana 工作区而设计。
对于支持 Grafana 9.x 版本的 Grafana 工作区,请参阅 使用 Grafana 版本 9。
对于支持 Grafana 8.x 版本的 Grafana 工作区,请参阅 使用 Grafana 版本 8。
在 Grafana v10 中,Amazon Managed Grafana 允许访问更新的警报系统 Grafana Alerting,该系统将警报信息集中在一个可搜索的视图中。Grafana Alerting 在 Grafana v8 中作为一项可选功能推出,GrafanaLabs 已宣布在版本 11 中删除旧版警报系统。
注意
本文档介绍了 Grafana Alerting。有关旧版警报的信息,请参阅 经典控制面板警报。
通过 Grafana Alerting,您可以在系统出现问题后立即了解情况。
监控传入的指标数据或日志条目,设置警报系统来监视特定事件或情况,然后在发现这些情况时发送通知。
这样,您就不再需要人工监控,还可以为系统中断或可能演变成重大事故的变更提供了第一道防线。
借助 Grafana Alerting,您可以从多个数据来源创建查询和表达式,无论数据存储在何处,都能够以新颖和独特的方式灵活组合数据,并针对指标和日志发出警报。然后,您可以从单一的整合视图中创建、管理和处理警报,从而提高团队快速发现和解决问题的能力。
通过 Mimir 和 Loki 警报规则,您可以更好地监控数据,并大规模警运行警报表达式,所有这些都由您所熟悉的 Grafana UI 管理。
注意
如果您是从早期版本的 Grafana 迁移过来,在早期版本中使用的是旧版 Grafana Alerting,那么了解旧版警报系统和新版 Grafana Alerting 之间的区别可能会有所帮助。
主要功能和优势
单页显示所有警报
单个 Grafana Alerting 页面将 Grafana 管理的警报和驻留在兼容 Prometheus 的数据来源中的警报整合到一个位置。
多维警报
警报规则可为每个警报规则创建多个单独的警报实例(称为多维警报),让您只需一个警报规则,就能获得对整个系统的可见性。为此,您可以在查询中添加标签以指定正在监控哪个组件,并为单个警报规则生成多个警报实例。例如,如果要监控集群中的每台服务器,则多维警报将针对每个 CPU 发出警报,而标准警报将针对整个服务器发出警报。
路由警报
根据您定义的标签,将每个警报实例路由到特定的联系点。通知策略是一组规则,规定了在何处、何时以及如何将警报分组并路由到联系点。
静默警报
静默会阻止创建通知,且只能在指定的时间段内持续。您可以通过静默停止接收来自一个或多个警报规则的持续通知。您也可以根据特定标准部分暂停警报。静默有自己的专用部分,以便更好地整理和查看,让您可以扫描暂停的警报规则,而不会使主警报视图混乱。
静音定时
静音定时是一个重复的时间间隔,在此期间,不会针对某个策略生成或发送新的通知。使用静音定时可防止警报在特定的重复时间段(如定期维护时间段)内触发。
与静默类似,静音定时不会阻止对警报规则进行评估,也不会阻止警报实例显示在用户界面中。只会阻止创建通知。
设计警报系统
监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此,建立一个有效的警报管理系统至关重要,在出现问题时发出通知,以免对业务成果造成影响。
设计和配置有效的警报管理设置需要时间。
以下是有关如何为您的企业创建有效的警报管理设置的一些提示:
您想要监控和发出警报的业务关键指标有哪些?
-
查找需要了解的重要事件,避免过于琐碎或频繁,以至于收件人忽略这些事件。
-
仅为需要立即关注或干预的重大事件创建警报。
-
考虑质量而不是数量。
您想使用哪种类型的警报?
-
选择 Grafana 管理的警报或 Grafana Mimir 或 Loki 管理的警报或二者。
您想如何整理警报和通知?
-
选择性地设置接收警报的对象。考虑将其发送给随时待命的人员或特定的 Slack 频道。
-
使用 Alerting API 或警报即代码(Terraform)尽可能自动化。
如何减少警觉疲劳?
-
使用静默、静音定时或暂停警报规则评估,避免发出不必要的噪音警报。
-
不断调整警报规则,查看有效性。删除警报规则,避免警报重复或无效。
-
仔细考虑优先级和严重性级别。
-
持续查看阈值和评估规则。
Grafana Alerting 限制
-
聚合来自其他系统的规则时,Grafana Alerting 系统可以从所有可用的 Amazon Managed Service for Prometheus、Prometheus、Loki 和 Alertmanager 数据来源中检索规则。但可能无法从其他受支持的数据来源获取规则。