使用通知策略 - Amazon Managed Grafana

使用通知策略

本文档主题专为支持 Grafana 8.x 版本的 Grafana 工作区而设计。

对于支持 Grafana 10.x 版本的 Grafana 工作区,请参阅 使用 Grafana 版本 10

对于支持 Grafana 9.x 版本的 Grafana 工作区,请参阅 使用 Grafana 版本 9

通知策略决定如何将警报路由到联系点。策略具有树形结构,其中每个策略都可以有一个或多个子策略。除了根策略外,每个策略还可以匹配特定的警报标签。每个警报先由根策略进行评估,然后由每个子策略进行评估。如果为特定策略启用了 Continue matching subsequent sibling nodes 选项,则即使有一个或多个匹配项,评估仍会继续。父策略的配置设置和联系点信息控制着与任何子策略都不匹配的警报的行为。根策略将管理所有与特定策略不匹配的警报。

注意

您可以为 Grafana 托管的警报创建和编辑通知策略。Alertmanager 警报的通知策略是只读的。

对通知进行分组

分组将性质相似的警报通知归类到单个漏斗中。这样一来,当系统的许多部分同时发生故障,导致大量警报同时启动时,您就可以在大规模故障期间控制警报通知。

分组示例

假设有 100 个服务在不同的环境中连接到一个数据库。这些服务由标签 env=environmentname 区分。已设置警报规则,用于监控您的服务是否可以访问数据库。警报规则会创建名为 alertname=DatabaseUnreachable 的警报。

如果发生网络分区,有一半的服务无法再访问数据库,则会启动 50 个不同的警报。对于这种情况,您会希望收到列出受影响环境的单页通知(而不是 50 页)。

您可以将分组配置为 group_by: [alertname](不使用 env 标签,该标签对于每个服务都不同)。完成此配置后,Grafana 会发送一条简要的通知,其中包含此警报规则的所有受影响环境。

特殊组

Grafana 有两个特殊组。默认组 group_by: null 会将所有警报分组中到一个组中。您也可以使用名为 ... 的特殊标签,按所有标签对警报进行分组,从而有效地禁用分组,并将每个警报发送到其自己的组中。

使用通知

以下过程演示了如何创建和管理通知策略。

编辑根通知策略
  1. 在 Grafana 控制台的 Grafana 菜单中,选择警报(铃铛)图标,打开警报页面。

  2. 选择通知策略

  3. Alertmanager 下拉列表中,选择要编辑的 Alertmanager。

  4. 根策略部分,选择编辑图标(笔)。

  5. 默认联系点中,更新当警报规则与任何特定策略都不匹配时,应向其发送规则通知的联系点。

  6. 分组依据中,选择用于对警报进行分组的标签(或特殊组)。

  7. 定时选项中,选择以下选项。

    • 组等待:在发送初始通知前,缓冲同一组警报的等待时间。默认值为 30 秒。

    • 组间隔:一个组的两次通知之间的最短时间间隔。默认值为 5 分钟。

    • 重复间隔:如果组内未添加新警报,在重新发送通知之前的最短时间间隔。默认为 4 小时。

  8. 选择保存,保存您的更改。

添加新的顶级特定策略
  1. 在 Grafana 控制台的 Grafana 菜单中,选择警报(铃铛)图标,打开警报页面。

  2. 选择通知策略

  3. Alertmanager 下拉列表中,选择要编辑的 Alertmanager。

  4. 特定路由部分,选择新建特定策略

  5. 匹配标签部分,添加一个或多个匹配的警报标签。有关标签匹配的更多信息,请参阅本主题的后半部分。

  6. 联系点中,添加当警报与此特定策略匹配时,要向其发送通知的联系点。嵌套策略会覆盖此联系点。

  7. 可以选择覆盖分组,指定与根策略不同的分组。

  8. 可以选择覆盖一般定时,以覆盖组通知策略中的定时选项。

  9. 选择保存策略以保存您的更改。

要添加嵌套策略
  1. 展开要在其下创建嵌套策略的特定策略。

  2. 选择添加嵌套策略,然后添加详细信息(就和添加顶级特定策略时一样)。

  3. 选择保存策略以保存您的更改。

编辑特定策略
  1. 警报页面,选择通知策略,打开列出现有策略的页面。

  2. 选择要编辑的策略,然后选择编辑图标(笔)。

  3. 进行任何更改(和添加顶级特定策略时一样)。

  4. 选择保存策略

标签匹配的工作原理

如果警报的标签与策略中指定的所有匹配标签相匹配,则策略与警报相匹配。

  • 标签:要匹配的标签名称。必须与警报的标签名称完全匹配。

  • 运算符:用于将标签值与匹配标签值进行比较的运算符。可用的运算符有:

    • = 选择其值与提供的字符串完全匹配的标签。

    • != 选择其值与提供的字符串不匹配的标签。

    • =~ 选择其值与所提供字符串的正则表达式解释值相匹配的标签(提供的字符串被解释为正则表达式)。

    • != 选择与提供的正则表达式不匹配的标签。

  • :要与标签值匹配的值。可作为字符串或正则表达式进行匹配,具体取决于所选的运算符。

静音定时

静音定时是一个重复的时间间隔,在此期间,不会针对某个策略生成或发送新的通知。使用静音定时可防止警报在特定的重复时间段(如定期维护时间段)内触发。

与静默类似,静音定时不会阻止对警报规则进行评估,也不会阻止警报实例显示在用户界面中。只会阻止创建通知。

您可以配置 Grafana 管理的静音定时,以及外部 Alertmanager 数据来源的静音定时。

静音定时与静默的对比

下表重点说明了静音定时与静默之间的区别。

静音定时 静默

使用可重复发生的时间间隔定义

有固定的开始时间和结束时间

创建后添加到通知策略中

使用标签与警报进行匹配,以确定是否静默

创建静音定时
  1. 在 Grafana 控制台的 Grafana 菜单中,选择警报(铃铛)图标,打开警报页面。

  2. 选择通知策略

  3. Alertmanager 下拉列表中,选择要编辑的 Alertmanager。

  4. 静音定时部分,选择添加静音定时按钮。

  5. 选择要应用静音定时的时间间隔。

  6. 选择提交,以创建静音定时。

向通知策略添加静音定时
  1. 选择要向其添加静音定时的通知策略,然后选择编辑按钮。

  2. 静音定时下拉列表中,选择要添加到策略中的静音定时。

    选择保存策略按钮。

时间间隔

时间间隔是对时间范围的定义。如果警报在此时间间隔中启动,该警报将被抑制。使用 : 可支持范围(例如 monday:thursday)。静音定时可以包含多个时间间隔。时间间隔由多个字段组成(详细信息见下表),所有字段都必须匹配才能抑制警报。例如,如果指定一周中的天数为 monday:friday,时间范围为 8:00 到 9:00,则星期一至星期五的 8 到 9 点会抑制警报,但星期六的 8 到 9 点不会。

  • 时间范围:一天中抑制通知的时间。包含开始时间结束时间两个子字段。以时间 14:30 为例。时间以 24 小时制表示,采用 UTC 时区。

  • 星期几:一周中的哪几天。可以是单日(例如 monday)、范围(例如 monday:friday),也可以是逗号分隔的多日列表(例如 monday, tuesday, wednesday)。

  • 月份:要选择的月份。您可以用数字指定月份,也可以用完整的月份名称指定月份,例如 1january 都是指定 1 月。您可以指定单个月份、月份范围,或以逗号分隔的月份列表。

  • 月中日期:一个月中的哪几天。值范围为 131。负值可按相反顺序指定月中日期,因此 -1 代表月中最后一天。可以将月中日期指定为单日、日期范围,或用逗号分隔的多日列表。