概觀 - Amazon Managed Grafana

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

概觀

此文件主題專為支援 Grafana 10.x 版的 Grafana 工作區而設計。

如需支援 Grafana 9.x 版的 Grafana 工作區,請參閱 在 Grafana 第 9 版中工作

如需支援 Grafana 8.x 版的 Grafana 工作區,請參閱 在 Grafana 第 8 版中工作

無論您是剛開始,還是更經驗豐富的 Grafana Alerting 使用者,請進一步了解可協助您建立、管理和回應警示的基本原理和可用功能;並改善團隊快速解決問題的能力。

原則

在 Prometheus 型警示系統中,您有警示產生器可建立警示,以及警示接收端可接收警示。例如,Prometheus 是警示產生器,負責評估警示規則,而 Alertmanager 是警示接收者,負責分組、禁止、靜音和傳送有關觸發和已解決警示的通知。

Grafana 警示建立在設計警示系統的 Prometheus 模型上。它有一個內部警示產生器,負責排程和評估警示規則,還有一個內部警示接收者,負責分組、禁止、靜音和傳送通知。Grafana 不會使用 Prometheus 作為警示產生器,因為除了 Prometheus 之外,Grafana Alerting 還需要使用許多其他資料來源。不過,它確實使用 Alertmanager 作為其警示接收者。

警示會傳送至警示接收端,並在其中路由、分組、禁止、靜音和通知。在 Grafana Alerting 中,預設警示接收器是內嵌在 Grafana 內的 Alertmanager,稱為 Grafana Alertmanager。不過,您也可以使用其他 Alertmanager,這些稱為 External Alertmanagers。

基礎知識

以下提供 Grafana 警示不同部分的概觀。

警示規則

警示規則是一組條件,用於判斷警示何時應觸發。它包含一或多個查詢和表達式、需要滿足的條件、決定警示規則評估頻率的間隔,以及必須滿足條件才能發出警示的持續時間。

警示規則會在其間隔內進行評估,每個警示規則一次可以觸發零個、一個或任何數量的警示。警示規則的狀態取決於其最severe警示,可以是正常、待定或觸發。例如,如果至少一個警示規則的警示正在觸發,則警示規則也會觸發。警示規則的運作狀態取決於其最近的評估狀態。這些可能是正常、錯誤和 NoData。

警示規則的一個非常重要的功能是它們支援自訂註釋和標籤。這些功能可讓您使用其他中繼資料,例如摘要和描述來建立儀器警示,並新增其他標籤,以將警示路由至特定通知政策。

Alerts (提醒)

警示由一組名為 Label 的索引鍵/值對唯一識別。每個索引鍵都是標籤名稱,每個值都是標籤值。例如,一個警示可能具有標籤,foo=bar另一個警示可能具有標籤 foo=baz。提醒可以有許多標籤,例如 ,foo=bar,bar=baz但不能有相同的標籤兩次,例如 foo=bar,foo=baz。兩個提醒也不能具有相同的標籤,如果兩個提醒具有相同的標籤,例如foo=bar,bar=bazfoo=bar,bar=baz則其中一個提醒將被捨棄。當不再符合警示規則中的條件,或已刪除警示規則時,警示就會解決。

在 Grafana Managed Alerts 中,警示可以是正常、待定、警示、無資料或錯誤狀態。在資料來源受管警示中,例如 Mimir 和 Loki,警示可以是正常、待定和警示,但不是 NoData 或錯誤。

聯絡點

聯絡點會決定傳送通知的位置。例如,您可能有一個聯絡點,可將通知傳送至電子郵件地址、Slack、Grafana OnCall 或 Pagerduty 等事件管理系統 (IRM),或傳送至 Webhook。

從聯絡點傳送的通知可以使用通知範本自訂。您可以使用通知範本來變更通知的標題、訊息和結構。通知範本並非專屬於個別整合或聯絡點。

通知政策

通知政策群組警示,然後將其路由至聯絡點。它們決定何時傳送通知,以及應多久重複一次通知。

警示會與使用標籤比對工具的通知政策相符。這些是人類可讀取的表達式,可宣告警示的標籤是否完全相符、不完全相符、包含或不包含一些預期的文字。例如,比對器會將警示與標籤foo=bar比對,foo=bar而比對器會將警示與名稱為 foo 的任何標籤foo=~[a-zA-Z]+比對,其值與規則表達式 相符[a-zA-Z]+

根據預設,警示只能符合一個通知政策。不過,透過continue功能提醒可以同時符合任何數量的通知政策。如需通知政策的詳細資訊,請參閱通知政策

靜音和靜音時間

靜音和靜音時間可讓您暫停特定警示的通知,甚至是整個通知政策。使用無聲來臨時暫停通知,例如在修復警示時;並使用靜音時間定期暫停通知,例如在定期排程維護時段期間。