Grafana 第 10 版中的警示 - Amazon Managed Grafana

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Grafana 第 10 版中的警示

此文件主題專為支援 Grafana 10.x 版的 Grafana 工作區而設計。

如需支援 Grafana 9.x 版的 Grafana 工作區,請參閱 在 Grafana 第 9 版中工作

如需支援 Grafana 8.x 版的 Grafana 工作區,請參閱 在 Grafana 第 8 版中工作

使用 Grafana v10,Amazon Managed Grafana 包含對更新的警示系統 Grafana 警示 的存取權,該系統會在單一可搜尋檢視中集中警示資訊。Grafana 警示在 Grafana v8 中作為選用功能推出,並 GrafanaLabs 已宣佈移除版本 11 中的舊版警示。

注意

本文件涵蓋 Grafana 警示。如需舊版警示的資訊,請參閱 傳統儀表板提醒

Grafana Alerting 可讓您了解系統發生後瞬間的問題。

監控傳入的指標資料或日誌項目,並設定警示系統以監控特定事件或情況,然後在找到這些事件時傳送通知。

如此一來,您就不需要手動監控,並提供第一道防線,避免系統中斷或可能變成重大事件的變更。

使用 Grafana Alerting,您可以建立來自多個資料來源的查詢和表達式,無論資料存放在何處,都可讓您以全新且獨特的方式靈活地將資料和警示結合在指標和日誌上。然後,您可以從單一合併檢視建立、管理和對警示採取行動,並改善團隊快速識別和解決問題的能力。

使用 Mimir 和 Loki 警示規則,您可以更接近資料並以大規模的方式執行警示表達式,這些表達式都由您已熟悉的 Grafana UI 管理。

注意

如果您從舊版的 Grafana 遷移,使用舊版 Grafana 警示,您可能會發現查看舊版警示與新版 Grafana 警示之間的差異很有幫助。

主要功能和優點

所有提醒的單一頁面

單一 Grafana 警示頁面會將位於 Prometheus 相容資料來源中的 Grafana 受管警示和警示合併為單一位置。

多維度警示

警示規則可以為每個警示規則建立多個個別警示執行個體,稱為多維警示,只需單一警示規則,即可讓您獲得整個系統的可見性。您可以將標籤新增至查詢,以指定要監控的元件,並為單一警示規則產生多個警示執行個體。例如,如果您想要監控叢集中的每個伺服器,則每個 都會發出多維警示CPU,而整個伺服器上則會發出標準警示。

路由提醒

根據您定義的標籤,將每個警示執行個體路由至特定聯絡點。通知政策是警示路由到聯絡點的位置、時間和方式的一組規則。

靜音提醒

Silences 會阻止通知建立,並僅持續指定的時段。靜音可讓您停止接收一或多個警示規則的持久性通知。您也可以根據特定條件部分暫停警示。Silences 有自己的專用區段,可提供更好的組織和可見性,因此您可以掃描暫停的警示規則,而不會混淆主要警示檢視。

將時間設為靜音

靜音計時是政策未產生或傳送新通知的週期性時間間隔。使用它們來防止警示觸發特定和重複的期間,例如定期維護期間。

與靜音類似,靜音計時不會阻止評估警示規則,也不會阻止警示執行個體顯示在使用者介面中。它們只會阻止建立通知。

設計您的警示系統

監控複雜的 IT 系統,並了解所有項目是否都已正常運作是一項困難的任務。因此,設定有效的警示管理系統對於在事情開始影響您的業務結果之前通知您發生錯誤至關重要。

設計和設定可運作的警示管理設定需要時間。

以下是如何為您的企業建立有效警示管理設定的一些秘訣:

您要監控和提醒的企業的關鍵指標有哪些?

  • 尋找重要的事件,不要太微不足道或太頻繁,以致收件人忽略這些事件。

  • 警示應僅針對需要立即注意或介入的大型事件建立。

  • 考慮品質而非數量。

您想要使用哪種類型的警示?

  • 選擇 Grafana 受管警示或 Grafana Mimir 或 Loki 受管警示;或兩者。

您想要如何組織提醒和通知?

  • 請選擇性考慮您設定為接收提醒的對象。考慮將他們傳送給正在通話的對象或特定的 Slack 頻道。

  • 使用警示API或警示作為程式碼 (Terraform) 盡可能自動化。

如何減少警示疲勞?

  • 使用靜音、靜音時間或暫停警示規則評估,以避免產生嘈雜、不必要的警示。

  • 持續調整警示規則,以檢閱有效性。移除警示規則,以避免重複或無效的警示。

  • 仔細考慮優先順序和嚴重性。

  • 持續檢閱您的閾值和評估規則。

Grafana 警示限制

  • 從其他系統彙總規則時,Grafana 警示系統可以從所有可用的 Amazon Managed Service for Prometheus、Prometheus、Loki 和 Alertmanager 資料來源擷取規則。其可能無法從其他支援的資料來源擷取規則。