Grafana 版本 10 中的警报 - Amazon Managed Grafana

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Grafana 版本 10 中的警报

本文档主题专为支持 Grafana 版本 10.x 的 Grafana 工作空间而设计。

有关支持 Grafana 9.x 版本的 Grafana 工作空间,请参阅。在 Grafana 版本 9 中工作

有关支持 Grafana 8.x 版本的 Grafana 工作空间,请参阅。在 Grafana 版本 8 中工作

在 Grafana v10 中,Amazon Managed Grafana 包括访问更新的警报系统 Grafana 警报,该系统将警报信息集中在一个可搜索的单一视图中。Grafana 警报在 Grafana v8 中作为一项可选功能引入, GrafanaLabs 并宣布在未来的版本中删除旧版警报。

注意

本文档介绍了 Grafana 警报。有关旧版警报的信息,请参阅经典仪表板提醒

Grafana Alerting 允许您在系统问题发生后立即了解问题。

监控传入的指标数据或日志条目,并将警报系统设置为监视特定事件或情况,然后在发现这些信息时发送通知。

这样,您就无需进行手动监控,为系统中断或可能演变为重大事件的变化提供了第一道防线。

使用 Grafana Alerting,您可以从多个数据源创建查询和表达式,无论您的数据存储在哪里,都可以灵活地组合数据,并以全新的独特方式提醒指标和日志。然后,您可以从单一的整合视图中创建、管理和处理警报,从而提高团队快速识别和解决问题的能力。

借助 Mimir 和 Loki 警报规则,你可以在更靠近数据的地方大规模运行警报表达式,所有这些表达式都由你已经熟悉的 Grafana 用户界面管理。

注意

如果您要从早期版本的 Grafana 迁移(使用的是旧版 Grafana 警报),那么了解旧版警报和新版 Grafana 警报之间的区别可能会有所帮助。

主要功能和优点

一页显示所有警报

单个 Grafana 警报页面将 Grafana 管理的警报和驻留在兼容 Prometheus 的数据源中的警报整合到一个地方。

多维警报

警报规则可以为每条警报规则创建多个单独的警报实例,称为多维警报,使您能够灵活地通过一条警报规则获得对整个系统的可见性。为此,您可以在查询中添加标签以指定正在监控哪个组件,并为单个警报规则生成多个警报实例。例如,如果要监视群集中的每台服务器,则多维警报将在每个 CPU 上发出警报,而标准警报将在整个服务器上发出警报。

路线警报

根据您定义的标签,将每个警报实例路由到特定的联系点。通知策略是一组关于警报在何处、何时以及如何发送到联系点的规则。

静音警报

静默会阻止通知的创建,并且只能在指定的时间段内持续下去。静默允许您停止接收来自一个或多个警报规则的持续通知。您也可以根据特定条件部分暂停警报。Silences 有自己的专用部分,以实现更好的组织和可见性,因此您可以扫描暂停的警报规则,而不会使主警报视图混乱。

静音计时

静音计时是指不生成或发送任何新策略通知的重复时间间隔。使用它们可以防止警报触发特定的重复周期,例如定期维护期。

与静音类似,静音计时不会阻止对警报规则进行评估,也不会阻止警报实例显示在用户界面中。它们只会阻止创建通知。

设计您的警报系统

监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此,建立有效的警报管理系统对于在出现问题时通知您至关重要,以免它们开始影响您的业务成果。

设计和配置有效的警报管理设置需要时间。

以下是有关如何为您的企业创建有效的警报管理设置的一些提示:

您想要监控和提醒业务的哪些关键指标?

  • 查找需要了解的重要事件,而不是那么琐碎或频繁以至于收件人会忽略这些事件。

  • 仅应为需要立即关注或干预的大型事件创建警报。

  • 考虑质量而不是数量。

你想使用哪种类型的警报?

  • 在 Grafana 管理的警报或 Grafana Mimir 或 Loki 管理的警报之间进行选择;或者两者兼而有之。

您想如何整理警报和通知?

  • 请选择将谁设置为接收警报。考虑将它们发送给任何正在待命的人或特定的 Slack 频道。

  • 使用警报 API 或警报即代码 (Terraform) 尽可能实现自动化。

如何减少警觉疲劳?

  • 使用静音、静音计时或暂停警报规则评估,避免出现嘈杂的、不必要的警报。

  • 不断调整警报规则以查看有效性。删除警报规则以避免重复警报或警报无效。

  • 请仔细考虑优先级和严重性级别。

  • 持续查看您的阈值和评估规则。

Grafana 警报限制

  • 在汇总来自其他系统的规则时,Grafana 警报系统可以从所有可用的亚马逊托管服务中检索适用于 Prometheus、Prometheus、Loki 和 Alertmanager 数据源的规则。它可能无法从其他支持的数据源获取规则。

  • 在 Grafana(而非 Prometheus)中定义的警报规则会向您的联系人发送多条通知。在其他数据源中定义的、在 Grafana 中汇总或显示的警报不是。当使用与 Prometheus 兼容的数据源中定义的警报时,建议启用 Grafana 警报。