REL11-BP06 イベントが可用性に影響する場合に通知を送信する
しきい値の違反が検出されると、イベントによって引き起こされた問題が自動的に解決された場合でも、通知が送信されます。
自動ヒーリング機能により、ワークロードの信頼性を高めることができます。ただし、対処する必要のある根本的な問題もあいまいになる可能性があります。根本原因の問題を解決できるように、自動ヒーリングによって対処されたものを含む問題のパターンを検出できるように、適切なモニタリングとイベントを実装します。
回復力を備えたシステムは、低下イベントがすぐに適切なチームに通知されるよう設計されています。これらの通知は、1 つまたは複数の通信チャネルを通じて送信する必要があります。
期待される成果: エラー率、レイテンシー、その他の主要業績評価指標 (KPI) メトリクスなどのしきい値を超えると、直ちにオペレーションチームにアラートが送信されます。これにより、これらの問題をできるだけ早く解決し、ユーザーへの影響を回避するか最小限に抑えることができます。
一般的なアンチパターン:
-
送信するアラームが多すぎる。
-
実行できないアラームを送信する。
-
アラームのしきい値の設定が高すぎる (感度が高すぎる) か、低すぎる (感度が低すぎる)。
-
外部依存関係に対するアラームを送信しない。
-
モニタリングとアラームを設計する際にグレー障害を考慮していない。
-
ヒーリングのオートメーションを実行しているが、ヒーリングが必要となったことを適切なチームに通知しない。
このベストプラクティスを活用するメリット: 復旧の通知により、運用チームやビジネスチームはサービスの低下を認識し、直ちに対応して平均検出時間 (MTTD) と平均修復時間 (MTTR) の両方を最小限に抑えることができます。復旧イベントの通知により、発生頻度の低い問題を無視することもなくなります。
このベストプラクティスを活用しない場合のリスクレベル: 中 適切なモニタリングとイベント通知のメカニズムを実装しないと、自動ヒーリングで対処されるものも含め、問題のパターンを検出できなくなる可能性があります。チームは、ユーザーがカスタマーサービスに連絡した場合、または偶然に見つけた場合にしか、システムの低下を認識できなくなります。
実装のガイダンス
モニタリング戦略の定義において、アラームのトリガーは一般的なイベントです。このイベントには、アラームの識別子、アラームの状態 (IN ALARM
や OK
) およびアラームをトリガーした原因の詳細が含まれる可能性があります。多くの場合、1 件のアラームイベントが検出されると、1 件の E メール通知が送信されます。これは、1 件のアラームにつき 1 つのアクションの例です。アラーム通知は、問題があることを適切な担当者に通知するため、オブザーバビリティにおいて非常に重要です。ただし、オブザーバビリティソリューションでイベントに対するアクションが洗練されると、人間の介入を必要とせずに問題を自動的に修正できます。
KPI モニタリングアラームを設定すると、しきい値を超えたときに適切なチームにアラートが送信されます。これらのアラートを使用して、低下の修復を試みる自動プロセスをトリガーすることもできます。
より複雑なしきい値のモニタリングには、複合アラームを検討する必要があります。複合アラームでは、多くの KPI モニタリングアラームを使用して、運用上のビジネスロジックに基づいてアラートを作成します。CloudWatch アラームは、Amazon SNS 統合または Amazon EventBridge を使用して、E メールを送信するか、サードパーティーのインシデント追跡システムにインシデントをログ記録するように設定できます。
実装手順
モニタリング対象のワークロードに応じて、次のようなさまざまなタイプのアラームを作成します。
-
アプリケーションアラームは、ワークロードの一部が正常に動作していないことを検出するために使用します。
-
インフラストラクチャアラームは、リソースをスケールするタイミングを示します。アラームは、ダッシュボードに視覚的に表示したり、Amazon SNS または E メールを介して送信したり、Auto Scaling と連携させてワークロードリソースをスケールイン/スケールアウトするのに使用したりすることができます。
-
シンプルな静的アラームを作成して、メトリクスが指定された評価期間の静的しきい値を超える状況をモニタリングできます。
-
複合アラームは、複数のソースからの複雑なアラームに対応できます。
-
アラームを作成したら、適切な通知イベントを作成します。Amazon SNS API を直接呼び出して、通知を送信し、修正やコミュニケーションのための自動化をリンクすることができます。
-
Amazon Health Aware
のモニタリングを統合することで、パフォーマンス低下の可能性がある AWS リソースを視覚的にモニタリングできます。ビジネスに不可欠なワークロードの場合、このソリューションによって、AWS サービスに対するプロアクティブでリアルタイムのアラートへのアクセスが可能になります。
リソース
関連する Well-Architected のベストプラクティス:
関連ドキュメント:
関連ツール: