Grafana バージョン 10 のアラート
このドキュメントのトピックは、Grafana バージョン 10.x をサポートする Grafana ワークスペース向けです。
Grafana バージョン 9.x をサポートする Grafana ワークスペースについては、「Grafana バージョン 9 での作業」を参照してください。
Grafana バージョン 8.x をサポートする Grafana ワークスペースについては、「Grafana バージョン 8 での作業」を参照してください。
Grafana バージョン 10 において、Amazon Managed Grafana には最新のアラートシステム [Grafana アラート]が含まれており、アラート情報を一元的に管理、検索できるビューが用意されています。Grafana アラートは Grafana バージョン 8 のオプション機能として導入され、GrafanaLabs はバージョン 11 でレガシーアラートの削除を発表しました。
注記
このドキュメントでは、Grafana アラートについて説明します。レガシーアラートの詳細については、「従来のダッシュボードアラート」を参照してください。
Grafana アラートを使用すると、システムの問題が発生した直後にその問題を把握できます。
受信メトリクスデータまたはログエントリをモニタリングし、アラートシステムをセットアップして特定のイベントや状況を監視し、問題が見つかったときに通知を送信します。
これにより、手動モニタリングが不要になり、重大なインシデントにつながる可能性のあるシステム停止や変更に対する防御策を講じることができます。
Grafana アラートを使用すると、データがどこに保存されていても、複数のデータソースからクエリと式を作成できます。これにより、データを柔軟に結合し、メトリクスとログを新しく独自の方法でアラートを送信できます。それに続いて、単一の統合されたビューからアラートを作成、管理、およびアクションを実行し、チームが問題をすばやく特定して解決する能力を向上させることができます。
Mimir と Loki のアラートルールを使用すると、データ周囲で大規模なアラート式を実行できます。これらはすべて、お使いの Grafana UI によって管理されます。
注記
レガシー Grafana アラートを使用した以前のバージョンの Grafana から移行する場合は、レガシーアラートと新しい Grafana アラートの違いを確認すると役立つ場合があります。
主な特徴と利点
すべてのアラートを単一のページに
Grafana が管理するアラートと、Prometheus 互換データソースに存在するアラートの両方が 1 つの Grafana アラートページに統合されます。
多次元アラート
アラートルールは、「多次元アラート」と呼ばれるアラートルールごとに複数の個別のアラートインスタンスを作成できるため、1 つのアラートルールだけでシステム全体の可視性を得るための機能と柔軟性が得られます。多次元ルールを作成するには、クエリにラベルを追加して、モニタリング対象のコンポーネントを指定し、単一のアラートルールに対して複数のアラートインスタンスを生成します。例えば、クラスター内の各サーバーをモニタリングする場合、各 CPU で多次元アラートがアラートされ、サーバー全体で標準アラートがアラートされます。
ルートアラート
定義したラベルに基づいて、各アラートインスタンスを特定のコンタクトポイントにルーティングします。通知ポリシーは、アラートがどこで、いつ、どのようにコンタクトポイントにルーティングされるかを定義するルールのセットです。
サイレンスアラート
サイレンスは、通知の作成を停止し、指定された期間だけ継続します。サイレンスを使用すると、1 つ以上のアラートルールからの永続通知の受信を停止できます。また、特定の基準に基づいてアラートを部分的に一時停止することもできます。サイレンスには、整理と可視性を向上させるための独自の専用セクションがあるため、メインアラートビューを乱すことなく一時停止したアラートルールをスキャンできます。
ミュートタイミング
ミュートタイミングとは、ポリシーの新しい通知が生成されたり送信されないようにする繰り返しの時間間隔です。定期的なメンテナンス期間など、アラートが特定の期間や繰り返し発生するのを防ぐために使用されます。
サイレンスと似ていますが、ミュートタイミングはアラートルールの評価や、ユーザーインターフェースへのアラート表示を停止せず、通知の作成のみを防ぎます。
アラートシステムを設計する
複雑な IT システムを監視し、すべてが正しく動作しているかどうかを理解することは難しい作業です。したがって、効果的なアラート管理システムを設定して、問題が発生したときにビジネスの成果に影響を与える前に通知することが不可欠です。
機能するアラート管理設定の設計と構成には時間がかかります。
ここでは、ビジネスに効果的なアラート管理の設定を作成する方法に関するヒントをいくつか紹介します。
監視およびアラートを行うビジネスの主要なメトリクスはどれですか?
-
受信者が無視するほど些細で頻繁ではない、知っておくべき重要なイベントを見つけます。
-
アラートは、即時の対応や介入を必要とする大きなイベントに対してのみ作成すべきです。
-
量よりも質を考慮してください。
どのタイプのアラートを使用しますか?
-
Grafana が管理するアラート、Grafana Mimir または Loki が管理するアラート、またはその両方を選択します。
アラートと通知をどのように整理しますか?
-
アラートを受信するように設定するユーザーを選択します。対応中のユーザーまたは特定の Slack チャネルに送信することを検討してください。
-
アラート API またはコードとしてのアラート (Terraform) として使用して、可能な限り自動化します。
アラート疲れを減らすにはどうすればよいですか?
-
サイレンス、ミュートタイミング、アラートルール評価の一時停止を使用して、ノイズの多い不要なアラートを回避します。
-
アラートルールを継続的に調整して、有効性を確認します。アラートルールを削除して、重複や無効なアラートを防ぎます。
-
優先度と重要度レベルを慎重に検討してください。
-
しきい値と評価ルールを継続的に確認します。
Grafana アラートの制約事項
-
他のシステムからルールを集約する場合、Grafana アラートシステムは、利用可能なすべての Amazon Managed Service for Prometheus、Prometheus、Loki、およびアラートマネージャーデータソースからルールを取得できますが、他のサポートされているデータソースからはルールを取得できない場合があります。