Grafana バージョン 10 のアラート - Amazon Managed Grafana

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Grafana バージョン 10 のアラート

このドキュメントトピックは、Grafana バージョン 10.x をサポートする Grafana ワークスペース向けに設計されています。

Grafana バージョン 9.x をサポートする Grafana ワークスペースについては、「」を参照してくださいGrafana バージョン 9 での作業

Grafana バージョン 8.x をサポートする Grafana ワークスペースについては、「」を参照してくださいGrafana バージョン 8 での作業

Grafana v10 では、Amazon Managed Grafana は更新されたアラートシステムである Grafana アラートへのアクセスを含み、アラート情報を 1 つの検索可能なビューに一元化します。Grafana アラートは Grafana v8 のオプション機能として導入 GrafanaLabs され、将来のバージョンでレガシーアラートの削除を発表しました。

注記

このドキュメントでは、Grafana アラートについて説明します。レガシーアラートの詳細については、「」を参照してくださいClassic ダッシュボードアラート

Grafana アラートを使用すると、システムの問題が発生した直後にその問題について学習できます。

受信メトリクスデータまたはログエントリをモニタリングし、特定のイベントや状況を監視して、それらが見つかったときに通知を送信するようにアラートシステムを設定します。

これにより、手動によるモニタリングが不要になり、重大なインシデントにつながる可能性のあるシステム停止や変更に対する防御のファーストラインが提供されます。

Grafana アラートを使用すると、データが保存されている場所に関係なく、複数のデータソースからクエリと式を作成できます。これにより、データとアラートを組み合わせて、メトリクスとログを新しく独自の方法で柔軟に組み合わせることができます。その後、1 つの統合ビューからアラートを作成、管理、アクションを実行し、チームが問題をすばやく特定して解決する能力を向上させることができます。

Mimir と Loki のアラートルールを使用すると、データの近くで大規模なアラート式を実行できます。これらはすべて、すでに使い慣れている Grafana UI によって管理されます。

注記

レガシー Grafana アラートを使用した以前のバージョンの Grafana から移行する場合は、レガシーアラートと新しい Grafana アラート の違いを確認すると役立つ場合があります。

主な機能と利点

すべてのアラートに 1 ページ

単一の Grafana アラートページは、Grafana が管理するアラートと、Prometheus 互換データソースに存在するアラートの両方を 1 か所に統合します。

多次元アラート

アラートルールは、多次元アラートと呼ばれるアラートルールごとに複数の個別のアラートインスタンスを作成できます。これにより、1 つのアラートルールだけでシステム全体の可視性を実現する能力と柔軟性が得られます。これを行うには、クエリにラベルを追加してモニタリング対象のコンポーネントを指定し、1 つのアラートルールに対して複数のアラートインスタンスを生成します。例えば、クラスター内の各サーバーをモニタリングする場合、多次元アラートは各 CPU で警告し、標準アラートはサーバー全体で警告します。

ルートアラート

定義したラベルに基づいて、各アラートインスタンスを特定のコンタクトポイントにルーティングします。通知ポリシーは、アラートがコンタクトポイントにルーティングされる場所、タイミング、および方法に関する一連のルールです。

無音アラート

サイレンスは、通知の作成を停止し、指定した期間だけ継続します。サイレンスを使用すると、1 つ以上のアラートルールからの永続通知の受信を停止できます。特定の条件に基づいてアラートを部分的に一時停止することもできます。サイレンスには、整理と可視性を向上させるための独自の専用セクションがあるため、メインのアラートビューを整理することなく、一時停止したアラートルールをスキャンできます。

ミュートタイミング

ミュートタイミングは、ポリシーの新しい通知が生成または送信されない定期的な時間間隔です。定期的なメンテナンス期間など、アラートが特定の期間に発生し、繰り返し発生するのを防ぐために使用します。

無音と同様に、ミュートタイミングによってアラートルールの評価が妨げられることも、ユーザーインターフェイスにアラートインスタンスが表示されないようにすることもなくなります。通知の作成のみを防ぎます。

アラートシステムの設計

複雑な IT システムをモニタリングし、すべてが正しく稼働しているかどうかを理解することは難しい作業です。したがって、効果的なアラート管理システムを設定することは、ビジネス成果に影響を与え始める前に、問題が発生したときに通知するために不可欠です。

機能するアラート管理設定の設計と設定には時間がかかります。

ビジネス用に効果的なアラート管理設定を作成する方法に関するヒントをいくつか紹介します。

モニタリングとアラートを行うビジネスの主要なメトリクスはどれですか?

  • 受信者が無視するほど些細なイベントや頻繁なイベントではなく、知ることが重要なイベントを見つけます。

  • アラートは、即時の対応や介入が必要な大きなイベントに対してのみ作成する必要があります。

  • 数量よりも品質を考慮します。

どのタイプのアラートを使用しますか?

  • Grafana 管理のアラート、Grafana Mimir、Loki 管理のアラート、またはその両方を選択します。

アラートと通知をどのように整理しますか?

  • アラートを受信するように設定したユーザーを選択します。通話中のユーザーや特定の Slack チャンネルに送信することを検討してください。

  • アラート API またはアラートをコードとして使用して、可能な限り自動化します (Terraform)。

アラートの疲労を軽減するにはどうすればよいですか?

  • 無音、ミュートタイミング、アラートルール評価の一時停止を使用して、ノイズの多い不要なアラートを回避します。

  • アラートルールを継続的に調整して、有効性を確認します。アラートルールを削除して、重複や無効なアラートを回避します。

  • 優先度と重要度レベルを慎重に検討してください。

  • しきい値と評価ルールを継続的に確認します。

Grafana アラートの制限事項

  • 他のシステムからルールを集約する場合、Grafana アラートシステムは、利用可能なすべての Amazon Managed Service for Prometheus、Prometheus、Loki、Alertmanager データソースからルールを取得できます。サポートされている他のデータソースからルールを取得できない場合があります。

  • Prometheus ではなく Grafana で定義されたアラートルールは、複数の通知をコンタクトセンターに送信します。他のデータソースで定義され、Grafana で集計または表示されるアラートは定義されません。Prometheus 互換データソースで定義されたアラートを使用する場合は、Grafana アラートを有効にすることをお勧めします。