本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Grafana 版本 10 中的警报
本文档主题专为支持 Grafana 版本 10.x 的 Grafana 工作空间而设计。
有关支持 Grafana 9.x 版本的 Grafana 工作空间,请参阅。在 Grafana 版本 9 中工作
有关支持 Grafana 8.x 版本的 Grafana 工作空间,请参阅。在 Grafana 版本 8 中工作
在 Grafana v10 中,Amazon Managed Grafana 包括访问更新的警报系统 Grafana 警报,该系统将警报信息集中在一个可搜索的单一视图中。Grafana 警报在 Grafana v8 中作为一项可选功能引入, GrafanaLabs 并宣布在未来的版本中删除旧版警报。
注意
本文档介绍了 Grafana 警报。有关旧版警报的信息,请参阅经典仪表板提醒。
Grafana Alerting 允许您在系统问题发生后立即了解问题。
监控传入的指标数据或日志条目,并将警报系统设置为监视特定事件或情况,然后在发现这些信息时发送通知。
这样,您就无需进行手动监控,为系统中断或可能演变为重大事件的变化提供了第一道防线。
使用 Grafana Alerting,您可以从多个数据源创建查询和表达式,无论您的数据存储在哪里,都可以灵活地组合数据,并以全新的独特方式提醒指标和日志。然后,您可以从单一的整合视图中创建、管理和处理警报,从而提高团队快速识别和解决问题的能力。
借助 Mimir 和 Loki 警报规则,你可以在更靠近数据的地方大规模运行警报表达式,所有这些表达式都由你已经熟悉的 Grafana 用户界面管理。
注意
如果您要从早期版本的 Grafana 迁移(使用的是旧版 Grafana 警报),那么了解旧版警报和新版 Grafana 警报之间的区别可能会有所帮助。
主要功能和优点
一页显示所有警报
单个 Grafana 警报页面将 Grafana 管理的警报和驻留在兼容 Prometheus 的数据源中的警报整合到一个地方。
多维警报
警报规则可以为每条警报规则创建多个单独的警报实例,称为多维警报,使您能够灵活地通过一条警报规则获得对整个系统的可见性。为此,您可以在查询中添加标签以指定正在监控哪个组件,并为单个警报规则生成多个警报实例。例如,如果要监视群集中的每台服务器,则多维警报将在每个 CPU 上发出警报,而标准警报将在整个服务器上发出警报。
路线警报
根据您定义的标签,将每个警报实例路由到特定的联系点。通知策略是一组关于警报在何处、何时以及如何发送到联系点的规则。
静音警报
静默会阻止通知的创建,并且只能在指定的时间段内持续下去。静默允许您停止接收来自一个或多个警报规则的持续通知。您也可以根据特定条件部分暂停警报。Silences 有自己的专用部分,以实现更好的组织和可见性,因此您可以扫描暂停的警报规则,而不会使主警报视图混乱。
静音计时
静音计时是指不生成或发送任何新策略通知的重复时间间隔。使用它们可以防止警报触发特定的重复周期,例如定期维护期。
与静音类似,静音计时不会阻止对警报规则进行评估,也不会阻止警报实例显示在用户界面中。它们只会阻止创建通知。
设计您的警报系统
监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此,建立有效的警报管理系统对于在出现问题时通知您至关重要,以免它们开始影响您的业务成果。
设计和配置有效的警报管理设置需要时间。
以下是有关如何为您的企业创建有效的警报管理设置的一些提示:
您想要监控和提醒业务的哪些关键指标?
-
查找需要了解的重要事件,而不是那么琐碎或频繁以至于收件人会忽略这些事件。
-
仅应为需要立即关注或干预的大型事件创建警报。
-
考虑质量而不是数量。
你想使用哪种类型的警报?
-
在 Grafana 管理的警报或 Grafana Mimir 或 Loki 管理的警报之间进行选择;或者两者兼而有之。
您想如何整理警报和通知?
-
请选择将谁设置为接收警报。考虑将它们发送给任何正在待命的人或特定的 Slack 频道。
-
使用警报 API 或警报即代码 (Terraform) 尽可能实现自动化。
如何减少警觉疲劳?
-
使用静音、静音计时或暂停警报规则评估,避免出现嘈杂的、不必要的警报。
-
不断调整警报规则以查看有效性。删除警报规则以避免重复警报或警报无效。
-
请仔细考虑优先级和严重性级别。
-
持续查看您的阈值和评估规则。
Grafana 警报限制
-
在汇总来自其他系统的规则时,Grafana 警报系统可以从所有可用的亚马逊托管服务中检索适用于 Prometheus、Prometheus、Loki 和 Alertmanager 数据源的规则。它可能无法从其他支持的数据源获取规则。
-
在 Grafana(而非 Prometheus)中定义的警报规则会向您的联系人发送多条通知。在其他数据源中定义的、在 Grafana 中汇总或显示的警报不是。当使用与 Prometheus 兼容的数据源中定义的警报时,建议启用 Grafana 警报。