通知政策 - Amazon Managed Grafana

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

通知政策

本文件主題是針對支援 Grafana 10.x 版的 Grafana 工作區所設計。

如需支援 Grafana 9.x 版的 Grafana 工作區,請參閱。在 Grafana 第 9 版中工作

如需支援 Grafana 8.x 版的 Grafana 工作區,請參閱。在 Grafana 第 8 版中工作

通知原則為您提供了一種靈活的方式,將警報路由到各種不同的接收器。使用標籤匹配器,您可以修改警報通知傳遞,而無需更新每個單獨的警報規則。

在本節中,您將了解有關通知政策如何工作和結構化的更多信息,以便您可以充分利用設置通知策略。

政策樹

通知原則是清單,而是根據樹狀結構來建構。這意味著每個策略都可以有子策略,依此類推。通知原則樹狀結構的根目錄稱為「預設通知原則」。

每個原則都包含一組標籤匹配器 (0 或更多),這些標籤匹配器指定它們是或不感興趣處理的標籤。

如需標示相符的更多資訊,請參閱標籤匹配的工作原理

注意

如果您尚未為通知原則設定任何標籤比對器,您的通知原則將符合所有警示執行個體。除非您已在通知原則上啟用 [繼續比對同層級],否則這可能會防止評估子策略。

路由

若要判斷哪些通知原則將處理哪些警示執行個體,您必須先查看現有的一組通知原則,從預設通知原則開始。

如果未設定預設原則以外的原則,則預設原則會處理警示執行個體。

如果定義了預設原則以外的原則,它會依照這些通知原則的顯示順序評估這些通知原則。

如果通知原則具有符合警示執行個體標籤的標籤比對器,它會下降到其子原則,如果有的話,將繼續尋找任何可能具有標籤比對器的子原則,這些標籤比對器會進一步縮小標籤集,依此類推,直到找不到其他子原則為止。

如果通知原則中未定義子政策,或是沒有任何子政策具有符合警示執行個體標籤的任何標籤比對器,則會使用父通知原則。

一旦找到匹配策略,系統就不會繼續尋找其他匹配策略。如果您要繼續尋找其他可能相符的原則,請啟用 [繼續比對該特定原則的同層級]。

最後,如果沒有選取任何通知原則,則會使用預設通知原則。

路由範例

以下是相對簡單的通知原則樹狀結構和一些警示執行個體的範例。

以樹狀結構顯示一組通知原則的影像,以及一組具有不同標籤以符合原則的警示例項。

以下是如何選擇這些策略的明細:

卡在中的網繭 CrashLoop沒有severity標籤,因此沒有符合其子原則。它確實有一個team=operations標籤,因此第一個策略匹配。

由於我們已經找到相符項目,且未針對該team=security原則設定「繼續比對同層級」,因此不會評估原則。

磁碟使用率 — 80% 同時具有teamseverity標籤,且符合作業團隊的子政策。

未經授權的記錄項目具有team標籤,但不符合第一個策略 (team=operations),因為值不相同,因此它將繼續搜尋並符合team=security策略。它沒有任何子策略,因此會忽略其他severity=high標籤。

繼承

除了子政策是路由警示執行個體的實用概念之外,它們也會繼承其父策略的屬性。這也適用於任何屬於預設通知原則之子策略的策略。

子策略會繼承下列屬性:

  • 聯絡點

  • 分組選項

  • 計時選項

  • 靜音計時

如果您想要覆寫繼承的屬性,每個屬性都可以由個別原則覆寫。

若要繼承父策略的聯絡點,請將其留空。若要覆寫繼承的群組選項,請啟用覆寫群組。若要覆寫繼承的計時選項,請啟用覆寫一般計時

繼承範例

以下範例顯示上一個範例中的通知原則樹狀結構如何允許的子策略team=operations繼承其聯絡點。

這樣,我們就可以避免為每個子政策多次指定相同的聯絡點。

以樹狀結構顯示一組通知原則的影像,其中有指派給某些策略的聯絡點,但有些子策略會繼承父母的聯絡點,而不是定義自己的聯絡點。

其他組態選項

分組

分組是 Grafana 警報的一個重要功能,因為它允許您將相關警報一起批量為更少的通知。如果將通知交付給急救人員(例如待命工程師),在短時間內接收大量通知可能會令人不知所措,並且在某些情況下可能會對第一響應事件的能力產生負面影響,這一點尤為重要。例如,假設您的許多系統故障時發生大量中斷。在這種情況下,分組可能是接收 1 個電話和 100 個電話之間的差異。

您可以使用通知原則中的 [分組依據] 選項來選擇警示群組在一起的方式。根據預設,Grafana 中的通知原則會使用alertnamegrafana_folder標籤依警示規則將警示群組在一起 (因為警示名稱在多個資料夾中並不是唯一的)。如果您想要依警示規則以外的其他項目來分組警示,請將群組變更為任何其他標籤組合。

停用分組

如果您希望將每個警報作為單獨的通知接收,則可以通過將名為的特殊標籤分組來實現...。當您的警報被傳送到自動系統而不是第一響應者時,這很有用。

所有警示的單一群組

如果您希望在單個通知中一起接收所有警報,您可以將 Group 留空。

計時選項

時間選項決定每個警示群組傳送通知的頻率。您需要了解三個計時器:組等待,分組間隔和重複間隔。

群組等待

群組等待是 Grafana 在傳送新警示群組的第一個通知之前等待的時間。群組等待時間越長,您有更多其他警示送達的時間。較短的群組等待時間是傳送第一個通知的時間越早,但有傳送不完整通知的風險。您應該始終選擇對您的使用案例最有意義的群組等待。

預設值 30 秒

群組間隔

針對新群組的警示傳送第一個通知後,Grafana 會啟動群組間隔計時器。這是 Grafana 在傳送有關變更群組的通知之前等待的時間。例如,另一個觸發警示可能剛剛新增至群組,而現有警示可能已解決。如果警示因為「群組」等待而未包含在第一個通知中,警示將在「群組」間隔後包含在後續通知中。一旦群組間隔已經過去,Grafana 會重設群組間隔計時器。這會重複執行,直到群組中沒有其他警示後刪除群組為止。

預設 5 分鐘

重複間隔

重複間隔決定如果群組自上次通知之後沒有變更,則通知的重複頻率。您可以將這些視為某些警報仍在發射的提醒。重複間隔與「群組」間隔密切相關,這表示您的「重複」間隔不僅必須大於或等於「群組」間隔,而且還必須是「群組」間隔的倍數。如果重複間隔不是組間隔的倍數,它將被強制為一個。例如,如果您的「群組」間隔為 5 分鐘,而「重複」間隔為 9 分鐘,則「重複」間隔會四捨五入到最接近的 5 倍數,即 10 分鐘。

預設 4 小時