AWS Incident Detection and Response は、アプリケーションレイヤーから基盤となるインフラストラクチャまで、ワークロード全体のオブザーバビリティを定義するための専門的なガイダンスを提供します。モニタリングにより、何か問題があることがわかります。オブザーバビリティは、データ収集を使用して、何が問題で、なぜそれが発生したかを知らせます。
Incident Detection and Response システムは、Amazon CloudWatch や Amazon EventBridge などのネイティブ AWS のサービスを活用してワークロードに影響を与える可能性のあるイベントを検出することで、AWS ワークロードの障害やパフォーマンスの低下をモニタリングします。モニタリングは、差し迫った障害、進行中の障害、減少中の障害、潜在的な障害、またはパフォーマンスの低下を通知します。アカウントを Incident Detection and Response にオンボードするときは、Incident Detection and Response モニタリングシステムでモニタリングするアカウント内のアラームを選択し、それらのアラームをインシデント管理中に使用されるアプリケーションとランブックに関連付けます。
Incident Detection and Response では、Amazon CloudWatch やその他の AWS のサービスを使用してオブザーバビリティソリューションを構築します。AWS Incident Detection and Response は、次の 2 つの方法でオブザーバビリティをサポートします。
ビジネス成果メトリクス: AWS Incident Detection and Response におけるオブザーバビリティは、ワークロードまたはエンドユーザーエクスペリエンスの成果をモニターする主要なメトリクスを定義することから始まります。AWS の専門家がお客様と協力し、ワークロードの目的、ユーザーエクスペリエンスに影響を与える可能性のある主要な出力または要因を理解し、これらの主要なメトリクスの低下をキャプチャするメトリクスとアラートを定義します。例えば、モバイル通話アプリケーションの主要なビジネスメトリクスは、通話セットアップの成功率 (ユーザー通話の成功率をモニタリング) であり、ウェブサイトの主要なメトリクスはページ速度です。インシデントエンゲージメントは、ビジネス成果メトリクスに基づいてトリガーされます。
インフラストラクチャレベルのメトリクス: この段階では、アプリケーションをサポートする基盤となる AWS のサービスとインフラストラクチャを特定し、これらのインフラストラクチャサービスのパフォーマンスを追跡するためのメトリクスとアラームを定義します。これには、Application Load Balancer インスタンスの
ApplicationLoadBalancerErrorCount
などのメトリクスが含まれる場合があります。これは、ワークロードがオンボーディングされ、モニタリングがセットアップされた後に開始されます。
AWS Incident Detection and Response のオブザーバビリティの実装
オブザーバビリティは継続的なプロセスで、1 つの演習や時間枠では完了しない可能性があるため、AWS Incident Detection and Response では、次の 2 つのフェーズでオブザーバビリティを実装します。
オンボーディングフェーズ: オンボーディング中のオブザーバビリティは、アプリケーションのビジネス成果が損なわれたときにそれを検出することに重点を置いています。このため、オンボーディングフェーズのオブザーバビリティは、アプリケーションレイヤーで主要なビジネス成果メトリクスを定義して、ワークロードの中断を AWS に通知することに重点を置いています。これにより、AWS はこのような中断に迅速に対応でき、復旧に役立ちます。
オンボーディング後フェーズ: AWS Incident Detection and Response には、インフラストラクチャレベルのメトリクスの定義、メトリクスの調整、お客様の成熟度に応じたトレースとログの設定など、オブザーバビリティのためのプロアクティブサービスが多数用意されています。これらのサービスの実装には数か月かかる場合があり、複数のチームが関与する可能性があります。AWS Incident Detection and Response では、オブザーバビリティの設定に関するガイダンスを提供され、お客様はワークロード環境に必要な変更を実装する必要があります。オブザーバビリティ機能の実装に関する実践的なサポートが必要な場合は、テクニカルアカウントマネージャー (TAM) にリクエストしてください。