建立警示 - Amazon Managed Grafana

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立警示

本文件主題討論 Grafana 中的舊式警示。這將不會在 future 版本的 Amazon 受管理 Grafana 支援。您可以移轉至 Grafana 警示,以使用最新的警示功能。如需詳細資訊,請參閱下列其中一個主題。

如需支援 Grafana 10.x 版的 Grafana 工作區,請參閱。警報在 Grafana 版本 10

如需支援 Grafana 9.x 版的 Grafana 工作區,請參閱。警報在 Grafana 版本 9

如需支援 Grafana 8.x 版的 Grafana 工作區,請參閱。Grafana 警報

使用 Amazon 受管 Grafana 警示時,您可以將規則附加到儀表板面板。當您儲存儀表板時,Amazon Managed Grafana 會將警示規則擷取到單獨的警示規則儲存區中,並排定這些規則進行評估。

在圖形面板的「警示」標籤上,您可以設定應評估警示規則的頻率,以及警示必須符合的條件,才能變更狀態並起始其通知。

目前只有圖形面板支援警示規則。

新增或編輯警示規則

  1. 導覽至新增或編輯警示規則的面板,選擇標題,然後選擇 [編輯]。

  2. 在「示」標籤上,選擇「建立警示」。如果此面板已存在警示,您可以編輯「警示」標籤上的欄位。

  3. 填寫欄位。如需詳細資訊,請參閱 警示規則欄位

  4. 撰寫完規則後,請選擇右上角的 [存] 以儲存警示規則和儀表板。

  5. (選擇性但建議使用) 若要確定規則傳回您預期的結果,請選擇 [測試規則]。

刪除警示規則

若要刪除警示,請捲動至警示底部,然後選擇 [刪除]。

警示規則欄位

本節說明您為建立警示所填寫的欄位。

規則

  • 名稱 — 輸入描述性名稱。名稱將顯示在「警示規則」清單中。

  • 評估間隔 — 指定排程器應評估警示規則的頻率。這稱為評估間隔

  • 用於 — 指定在觸發警示通知之前,查詢必須違反設定之臨界值的時間長度。

警告

請勿在If no data or all values are null設定為For的情況下使用No Data。的觸發No Data將立即觸發,而不考For慮在內。這也可能導致警示從中轉換時,不會傳送「正常」通知No Data -> Pending -> OK

如果警示規則已設定,For且查詢違反設定的臨界值,則會先從OKPending。從OKPending,Amazon 管理 Grafana 不會發送任何通知。當警示規則觸發超過For持續時間時,它會變更為Alerting並傳送警示通知。

通常,我們建議您使用此設定,因為在警示通知起始之前等待幾分鐘,通常會更糟糕。查看Alert listAlert list panels,您將能夠看到處於擱置狀態的警示。

條件

目前,唯一現有的條件類型是可讓您指定查詢字母、時間範圍和彙總函數的Query條件。

查詢條件範例

avg() OF query(A, 15m, now) IS BELOW 14
  • avg()控制如何將每個序列的值減少為可與臨界值進行比較的值。選擇函數,將其變更為另一個彙總函數。

  • query(A, 15m, now)此字母會定義要從「度量」標籤執行的查詢。第二個參數定義時間範圍:15m, now意味著 15 分鐘前到現在。您也可以使用10m, now-2m來定義 10 分鐘前到 2 分鐘前的時間範圍。如果您想忽略最後 2 分鐘的數據,這很有用。

  • IS BELOW 14定義臨界值的類型和臨界值。您可以選擇IS BELOW變更臨界值的類型。

警示規則中使用的查詢不能包含任何範本變數。目前,我們僅支持條件之間的OR運營商AND和運營商,並且它們是連續運行的。例如,我們有三個條件按以下順序:條件:A(評估為:TRUE)或條件:B(評估為:假)和條件:C(計算結果為:TRUE),所以結果將被計算為(真或假)和真)= 真。

多系列

如果查詢返回多個系列,聚合函數和閾值檢查將為每個系列進行評估。目前,Amazon 受管 Grafana 不會追蹤每個系列的警示規則狀態。下列案例會詳細說明此問題的含意。

  • 帶有查詢的警報條件,返回兩個系列:服務器 1 和服務 2。

  • server1 系列會觸發警示規則並切換至狀態Alerting

  • 會傳送通知,並附上訊息:負載峰值 (伺服器 1)

  • 在後續評估相同警示規則時,server2 序列也會觸發警示規則。

  • 因為警示規則已處於狀態,因此不會傳送任何新通知Alerting

從上一個案例中可以看到,如果規則已處於狀態Alerting,當其他系列引發警示時,Grafana 不會傳送通知。

注意

您可以設定要傳送觸發警示的提醒。這會在警示持續觸發時傳送其他通知。如果其他序列 (例如先前範例中的 server2) 也導致警示規則觸發,則這些序列會包含在提醒通知中。視您使用的通知通道而定,您可能可以利用此功能來識別引發警示的新序列或現有序列。

沒有數據和錯誤處理

下表包含控制規則評估引擎如何處理未傳回資料或僅傳回 Null 值之查詢的條件。

無資料選項 描述
暫無資料 將警示規則狀態設為NoData
提醒 將警示規則狀態設為Alerting
保留最後狀態 保持目前的警示規則狀態,不管它是什麼。
好吧 支持,但通常沒有用。

執行錯誤或逾時

以下選項告訴 Amazon 受管的 Grafana 如何處理執行或超時錯誤。

錯誤或逾時選項 描述
提醒 將警示規則狀態設為Alerting
保留最後狀態 保持目前的警示規則狀態,不管它是什麼。

如果您有一個不可靠的時間序列存儲,查詢有時會隨機超時或失敗,則可以將此選項設置Keep Last State為基本忽略它們。

通知

警示索引標籤上,您也可以指定警示規則通知和警示規則的詳細訊息。該消息可以包含任何內容:有關如何解決問題的信息,鏈接到 runbook,等等。

實際通知會在多個警示之間設定並共用。如需有關如何設定和設定通知的資訊,請參閱警示通知

  • 傳送至 — 如果您已設定警示通道,請選取警示通道。

  • 訊息 — 輸入要在通知通道上傳送的文字訊息。一些警報通知器支持將文本轉換為 HTML 或其他豐富格式。

  • 標籤 — 指定要包含在通知中的標籤 (鍵值) 清單。它是由只有一些通知程序支持。

警示狀態歷程記錄和註釋

警示狀態變更會記錄在 Amazon 受管 Grafana 資料庫的內部註釋表中。狀態變更會在警示規則的圖形面板中視覺化為註釋。您也可以進入「警示」標籤上的State history子功能表,以檢視和清除狀態歷程記錄。