OPS08-BP04 実践的なアラートを作成する
アプリケーションの動作の逸脱を迅速に検出して対応することが重要です。特に重要なのは、主要業績評価指標 (KPI) に基づく成果がリスクにさらされている場合や、予期しない異常が発生した場合を認識することです。KPI に基づいてアラートを送信することで、受信される警告が直接的に業務や運用上の影響と関連付けられるようになります。実践的なアラートに関するこのようなアプローチを採用すると、積極的な対応の促進とシステムのパフォーマンスと信頼性の維持につながります。
期待される成果: 特に KPI の結果がリスクにさらされている場合に、潜在的な問題を迅速に特定して軽減するための、タイムリーで関連性のある実用的なアラートを受け取ることができます。
一般的なアンチパターン:
-
重大ではないアラートを多数設定しすぎて、アラート疲れを引き起こしている。
-
アラートに KPI に基づく優先順位付けを行っていないため、問題が業務に及ぼす影響を把握できにくくなっている。
-
根本原因への対処を怠っているため、同じ問題について繰り返しアラートが送信される。
このベストプラクティスを活用するメリット:
-
実践的で関連性の高いアラートに重点を置くことで、アラート疲労を軽減します。
-
問題を事前に検出して軽減することで、システムの稼働時間と信頼性が向上します。
-
一般的なアラートツールやコミュニケーションツールと統合することで、チームのコラボレーションを強化し、問題を迅速に解決できます。
このベストプラクティスを活用しない場合のリスクレベル: 高
実装のガイダンス
効果的なアラートメカニズムを構築するには、KPI に基づく結果がリスクにさらされている場合や異常が検出された場合にフラグを立てるメトリクス、ログ、トレースデータを使用することが重要です。
実装手順
-
主要業績評価指標 (KPI) を決定する: アプリケーションの KPI を特定します。正確に業務への影響を反映するには、アラートをこのような KPI に関連付ける必要があります。
-
異常検出の実装:
-
Amazon CloudWatch 異常検出を使用する: Amazon CloudWatch 異常検出を設定して、異常なパターンを自動的に検出します。これにより、真の異常に関するアラートのみが生成されます。
-
AWS X-Ray Insights の使用:
-
X-Ray Insights を設定して、トレースデータの異常を検出します。
-
検出された問題について警告するように、X-Ray Insights の通知を設定します。
-
-
Amazon DevOps Guru との統合:
-
Amazon DevOps Guru
の機械学習機能を活用して、既存データの運用上の異常を検出します。 -
DevOps Guru の [通知設定] に移動して、異常アラートを設定します。
-
-
-
実践的なアラートを実装する: 迅速なアクションに必要な、適切な情報を提供するアラートを設計します。
-
Amazon EventBridge ルールで AWS Health イベントをモニタリングするか、プログラムで AWS Health API と統合して、AWS Health イベント受信時のアクションを自動化します。これらのアクションには、計画されたすべてのライフサイクルイベントメッセージをチャットインターフェイスに送信するなどの一般的なアクションや、IT サービス管理ツールでのワークフローの開始などの特定のアクションがあります。
-
-
アラート疲れを軽減する: 重要でないアラートを最小限に抑えます。多数の重要でないアラートによりチームに負担がかかると、重大な問題の見落としにつながり、アラートメカニズムの全体的な有効性が低下する場合があります。
-
複合アラームを設定する: Amazon CloudWatch 複合アラーム
を使用して、複数のアラームを統合します。 -
AWS Chatbot と連結させる: AWS Chatbot
と統合して、Amazon Chime、Microsoft Teams、Slack にアラートを中継します。 -
ログに基づくアラート: CloudWatch のログメトリクスフィルターを使用して、特定のログイベントに基づいてアラームを作成します。
-
レビューと反復: アラート設定を定期的に見直して調整します。
実装計画に必要な工数レベル: 中
リソース
関連するベストプラクティス:
関連ドキュメント:
関連動画:
関連する例: