AWS Incident Detection and Response は、対象となる AWS エンタープライズサポートのお客様に、障害の可能性を減らし、重要なワークロードの中断からの復旧を加速するための、プロアクティブなインシデント対応を提供します。Incident Detection and Response により、AWS とのコラボレーションが促進され、オンボーディングされた各ワークロードに合わせてカスタマイズされたランブックとレスポンスプランが策定できます。
インシデント検出と対応には、次の主要な機能があります。
オブザーバビリティの向上: AWS の専門家は、ワークロードのアプリケーションレイヤーとインフラストラクチャレイヤー間のメトリクスとアラームの定義と関連付けを支援し、中断を早期に検出できるようにします。
5 分以内の応答時間: インシデント管理エンジニアリング (IME) は、オンボードされたお客様のワークロードを 24 時間 365 日モニタリングして、重大なインシデントを検出します。IME は、アラームがトリガーされてから 5 分以内に応答するか、お客様が Incident Detection and Response に設定したビジネスクリティカルなサポートケースに対応します。
より迅速な解決: IME は、ワークロード用に策定された事前定義済みのカスタムランブックを使用して、5 分以内に応答し、お客様に代わってサポートケースを作成し、ワークロードのインシデントを管理します。IME は、インシデントに対する一元化された所有権を提供し、インシデントが解決されるまで適切な AWS の専門家と連携し続けます。
AWS イベントのインシデント管理: 当社はお客様の重要なワークロード (アカウント、サービス、インスタンスなど) のコンテキストを把握しているため、AWS のサービスイベント中にワークロードへの潜在的な影響を検出して事前に通知できます。リクエストがあれば、IME は AWS のサービスイベント中にお客様と連携し、イベントの最新情報を提供します。Incident Detection and Response はサービスイベント中の復旧に優先順位を付けることはできませんが、障害軽減プランの実装に役立つサポートガイダンスを提供します。
障害の可能性の低減: 解決後、IME はインシデント後レビュー (リクエストに応じて) を提供します。また、AWS の専門家がお客様と協力して、インシデントレスポンスプランとランブックを改善するために学んだ教訓を適用します。また、ワークロードの回復性の継続的な追跡に AWS Resilience Hub を活用することもできます。