本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
通知政策
本文件主題是針對支援 Grafana 10.x 版的 Grafana 工作區所設計。
如需支援 Grafana 9.x 版的 Grafana 工作區,請參閱。在 Grafana 第 9 版中工作
如需支援 Grafana 8.x 版的 Grafana 工作區,請參閱。在 Grafana 第 8 版中工作
通知原則為您提供了一種靈活的方式,將警報路由到各種不同的接收器。使用標籤匹配器,您可以修改警報通知傳遞,而無需更新每個單獨的警報規則。
在本節中,您將了解有關通知政策如何工作和結構化的更多信息,以便您可以充分利用設置通知策略。
政策樹
通知原則不是清單,而是根據樹狀結構來建構。這意味著每個策略都可以有子策略,依此類推。通知原則樹狀結構的根目錄稱為「預設通知原則」。
每個原則都包含一組標籤匹配器 (0 或更多),這些標籤匹配器指定它們是或不感興趣處理的標籤。
如需標示相符的更多資訊,請參閱標籤匹配的工作原理。
注意
如果您尚未為通知原則設定任何標籤比對器,您的通知原則將符合所有警示執行個體。除非您已在通知原則上啟用 [繼續比對同層級],否則這可能會防止評估子策略。
路由
若要判斷哪些通知原則將處理哪些警示執行個體,您必須先查看現有的一組通知原則,從預設通知原則開始。
如果未設定預設原則以外的原則,則預設原則會處理警示執行個體。
如果定義了預設原則以外的原則,它會依照這些通知原則的顯示順序評估這些通知原則。
如果通知原則具有符合警示執行個體標籤的標籤比對器,它會下降到其子原則,如果有的話,將繼續尋找任何可能具有標籤比對器的子原則,這些標籤比對器會進一步縮小標籤集,依此類推,直到找不到其他子原則為止。
如果通知原則中未定義子政策,或是沒有任何子政策具有符合警示執行個體標籤的任何標籤比對器,則會使用父通知原則。
一旦找到匹配策略,系統就不會繼續尋找其他匹配策略。如果您要繼續尋找其他可能相符的原則,請啟用 [繼續比對該特定原則的同層級]。
最後,如果沒有選取任何通知原則,則會使用預設通知原則。
路由範例
以下是相對簡單的通知原則樹狀結構和一些警示執行個體的範例。
以下是如何選擇這些策略的明細:
卡在中的網繭 CrashLoop沒有severity
標籤,因此沒有符合其子原則。它確實有一個team=operations
標籤,因此第一個策略匹配。
由於我們已經找到相符項目,且未針對該team=security
原則設定「繼續比對同層級」,因此不會評估原則。
磁碟使用率 — 80% 同時具有team
和severity
標籤,且符合作業團隊的子政策。
未經授權的記錄項目具有team
標籤,但不符合第一個策略 (team=operations
),因為值不相同,因此它將繼續搜尋並符合team=security
策略。它沒有任何子策略,因此會忽略其他severity=high
標籤。
繼承
除了子政策是路由警示執行個體的實用概念之外,它們也會繼承其父策略的屬性。這也適用於任何屬於預設通知原則之子策略的策略。
子策略會繼承下列屬性:
聯絡點
分組選項
計時選項
靜音計時
如果您想要覆寫繼承的屬性,每個屬性都可以由個別原則覆寫。
若要繼承父策略的聯絡點,請將其留空。若要覆寫繼承的群組選項,請啟用覆寫群組。若要覆寫繼承的計時選項,請啟用覆寫一般計時。
繼承範例
以下範例顯示上一個範例中的通知原則樹狀結構如何允許的子策略team=operations
繼承其聯絡點。
這樣,我們就可以避免為每個子政策多次指定相同的聯絡點。
其他組態選項
分組
分組是 Grafana 警報的一個重要功能,因為它允許您將相關警報一起批量為更少的通知。如果將通知交付給急救人員(例如待命工程師),在短時間內接收大量通知可能會令人不知所措,並且在某些情況下可能會對第一響應事件的能力產生負面影響,這一點尤為重要。例如,假設您的許多系統故障時發生大量中斷。在這種情況下,分組可能是接收 1 個電話和 100 個電話之間的差異。
您可以使用通知原則中的 [分組依據] 選項來選擇警示群組在一起的方式。根據預設,Grafana 中的通知原則會使用alertname
和grafana_folder
標籤依警示規則將警示群組在一起 (因為警示名稱在多個資料夾中並不是唯一的)。如果您想要依警示規則以外的其他項目來分組警示,請將群組變更為任何其他標籤組合。
停用分組
如果您希望將每個警報作為單獨的通知接收,則可以通過將名為的特殊標籤分組來實現...
。當您的警報被傳送到自動系統而不是第一響應者時,這很有用。
所有警示的單一群組
如果您希望在單個通知中一起接收所有警報,您可以將 Group 留空。
計時選項
時間選項決定每個警示群組傳送通知的頻率。您需要了解三個計時器:組等待,分組間隔和重複間隔。
群組等待
群組等待是 Grafana 在傳送新警示群組的第一個通知之前等待的時間。群組等待時間越長,您有更多其他警示送達的時間。較短的群組等待時間是傳送第一個通知的時間越早,但有傳送不完整通知的風險。您應該始終選擇對您的使用案例最有意義的群組等待。
預設值 30 秒
群組間隔
針對新群組的警示傳送第一個通知後,Grafana 會啟動群組間隔計時器。這是 Grafana 在傳送有關變更群組的通知之前等待的時間。例如,另一個觸發警示可能剛剛新增至群組,而現有警示可能已解決。如果警示因為「群組」等待而未包含在第一個通知中,警示將在「群組」間隔後包含在後續通知中。一旦群組間隔已經過去,Grafana 會重設群組間隔計時器。這會重複執行,直到群組中沒有其他警示後刪除群組為止。
預設 5 分鐘
重複間隔
重複間隔決定如果群組自上次通知之後沒有變更,則通知的重複頻率。您可以將這些視為某些警報仍在發射的提醒。重複間隔與「群組」間隔密切相關,這表示您的「重複」間隔不僅必須大於或等於「群組」間隔,而且還必須是「群組」間隔的倍數。如果重複間隔不是組間隔的倍數,它將被強制為一個。例如,如果您的「群組」間隔為 5 分鐘,而「重複」間隔為 9 分鐘,則「重複」間隔會四捨五入到最接近的 5 倍數,即 10 分鐘。
預設 4 小時