AWS Systems Manager Incident Manager とは? - Incident Manager

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Systems Manager Incident Manager とは?

AWS Systems Manager の一機能である Incident Manager は、AWS でホストされているアプリケーションに影響を与えるインシデントを軽減し、回復させるのに役立つように設計されています。

AWS のコンテキストにおいて、インシデントとは、業務運営に重大な影響を与える可能性のある、サービスの計画外の中断または品質の低下を意味します。したがって、組織にとって、インシデントを効率的に軽減して回復するための対応戦略を確立し、将来のインシデントを防ぐための措置を実行することが重要です。

Incident Manager は、以下の方法でインシデント解決にかかる時間を短縮できます。

  • インシデント対応の責任者を効率的にエンゲージさせるための自動計画を提供する。

  • 関連するトラブルシューティングデータを提供する。

  • 定義済みのオートメーションランブックを使用して、自動対応アクションを有効にする。

  • すべてのステークホルダーと協力し連絡を取る方法を提供する。

Incident Manager に組み込まれている機能とワークフローは、Amazon がほぼ設立当初から開発してきたインシデント対応のベストプラクティスに基づいています。Incident Manager は Amazon CloudWatch、AWS CloudTrail、AWS Systems Manager、Amazon EventBridge などの AWS のサービス と統合されています。

主なコンポーネントと機能

このセクションでは、インシデント対応計画のセットアップに使用する Incident Manager の機能について説明します。

対応計画

対応計画は、インシデント発生時に何を準備する必要があるかを定義するテンプレートとして機能します。これには以下のような情報が含まれます。

  • インシデント発生時に対応を求められるのは誰か。

  • インシデントを軽減するための確立された自動対応。

  • 応答者が連絡を取り、インシデントに関する自動通知を受け取るために使用する必要があるコラボレーションツール。

インシデント検知

Amazon CloudWatch アラームおよび Amazon EventBridge イベントを設定して、AWS リソースに影響を与える条件または変更が検出されたときに、インシデントを作成できます。

ランブックオートメーションサポート

Incident Manager 内からオートメーションランブックを開始して、インシデントへの重要な対応を自動化し、最初の応答者に詳細なステップを提供します。

エンゲージメントとエスカレーション

エンゲージメント計画は、一意のインシデントが発生するたびに全員に通知するように指定します。Incident Manager に追加した個々の連絡先を指定することも、Incident Manager で作成したオンコールスケジュールを指定することもできます。また、エンゲージメント計画は、エスカレーションパスを指定して、ステークホルダーの間での可視性およびインシデント対応プロセスへの積極的な参加を確保できるようにします。

オンコールスケジュール

Incident Manager のオンコールスケジュールは、そのスケジュール用に作成する 1 つ以上のローテーションで構成されます。各ローテーションには、最大 30 個の連絡先を含めることができます。オンコールスケジュールは、エスカレーション計画または対応計画に追加すると、応答者の介入が必要なインシデントが発生した場合に誰が通知を受けるかを定義します。オンコールスケジュールは、インシデント対応に必要な完全かつ冗長な 24 時間 365 日のカバレッジを確保するのに役立ちます。

アクティブコラボレーション

インシデント応答者は、AWS Chatbot クライアントとの統合を通じて、インシデントに積極的に対応します。AWS Chatbot は、Slack、Microsoft Teams、または Amazon Chime を使用する Incident Manager 用のチャットチャネルの作成をサポートします。応答者は、互いに直接連絡を取り合ったり、インシデントに関する自動通知を受け取ることができます。また、Slack および Microsoft Teams では、一部の Incident Manager のコマンドラインインターフェイス (CLI) オペレーションを直接実行できます。

インシデント診断

応答者は、インシデント発生時に、Incident Manager コンソールで最新情報を表示できます。その後、応答者は情報の変更に基づき、オートメーションランブックを使用してフォローアップ項目を作成し、それらを修正できます。

他のサービスからの検出結果

応答者のインシデント診断をサポートするために、Incident Manager の検出結果機能を有効にできます。検出結果とは、インシデント発生前後に発生した、インシデントに関連する可能性のある 1 つ以上のリソースが関与した AWS CodeDeploy デプロイおよび AWS CloudFormation スタックの更新に関する情報です。この情報があると、潜在的な原因の評価に必要な時間が短縮され、インシデントからの平均回復時間 (MTTR) を短縮できます。

インシデント後分析

インシデントが解決されたら、インシデント後分析を使用して、検出および緩和までの時間など、インシデント対応を改善するための改善点を特定します。分析は、インシデントの原因を理解するのに役立ちます。Incident Manager は、インシデント対応を改善するために使用できる推奨フォローアップアクション項目を作成します。

Incident Manager を使用する利点

インシデント検出および対応業務に Incident Manager を使用することの利点について説明します。

このセクションでは、Incident Manager 対応計画を実装することで組織が得られる利点について説明します。

問題を効率的かつ即時に診断する

設定した Amazon CloudWatch アラームおよび Amazon EventBridge イベントは、サービスの計画外の中断または品質の低下が発生した場合に、自動的にインシデントを作成することができます。

CloudWatch アラームは、複数の期間にわたってしきい値を基準としたメトリクスまたは式の値に変化があった場合、検出して報告します。EventBridge イベントは、EventBridge ルールで指定した環境、アプリケーション、またはサービスの変更の結果として作成されます。アラームまたはイベントを作成する場合、Incident Manager で作成するインシデントのアクション、およびインシデントのエンゲージメント、エスカレーション、緩和を円滑に進めるための適切な対応計画を指定できます。

Incident Manager は、CloudWatch メトリクスを使用して、インシデントに関連するメトリクスを自動的に収集および追跡する機能を提供します。CloudWatch アラームによってインシデントが作成されたときに生成される自動メトリクスに加えて、メトリクスをリアルタイムで手動で追加して、インシデントの応答者に追加のコンテキストおよびデータを提供できます。

Incident Manager インシデントタイムラインを使用して、POI を時系列で表示します。応答者は、タイムラインを使用してカスタムイベントを追加し、自分が何をしたのか、何が起こったのかを説明することもできます。自動化された POI は次のとおりです。

  • CloudWatch アラームまたは EventBridge ルールはインシデントを作成します。

  • インシデントメトリクスは Incident Manager に報告されます。

  • 応答者はエンゲージしています。

  • ランブックのステップは正常に完了しました。

効果的にエンゲージさせる

Incident Manager は、連絡先、オンコールスケジュール、エスカレーション計画、チャットチャネルを使用して、インシデント応答者をまとめます。Incident Manager で個々の連絡先を直接定義し、連絡先設定 (E メール、SMS、音声) を指定します。オンコールスケジュールのローテーションに連絡先を追加して、特定の期間に誰をインシデントにエンゲージさせるかを決定します。定義された連絡先およびオンコールスケジュールを使用して、インシデント中に適切なタイミングで必要な応答者をエンゲージさせるエスカレーション計画を作成します。

リアルタイムで協力する

インシデント中のコミュニケーションは、より迅速な解決の鍵です。Slack、Microsoft Teams、または Amazon Chime を使用するようにセットアップされた AWS Chatbot クライアントを使用すると、応答者を希望する接続チャットチャネルに集めて、直接インシデントと対話したり、相互にやり取りしたりできます。また、Incident Manager は、チャットチャネル内のインシデント応答者のリアルタイムアクションを表示し、他のユーザーにコンテキストを提供します。

サービスの復旧を自動化する

Incident Manager では、オートメーションランブックを使用することで、応答者はインシデントの解決に必要な主要タスクに集中できます。Incident Manager では、ランブックは、インシデントを解決するために実行される事前定義された一連のアクションです。必要に応じて、自動タスクの力と手動ステップを組み合わせて、応答者が影響を分析して対応できるようにします。

将来のインシデントを防ぐ

Incident Manager によるインシデント後分析により、チームはより強固な対応計画を策定し、アプリケーション全体で変更を反映させて、将来のインシデントおよびダウンタイムを防ぐことができます。インシデント後分析は、ランブック、対応計画、およびメトリクスの反復学習および改善も提供します。

Incident Manager は、インシデントの検出および解決、API オペレーションとの間接的な対話、インフラストラクチャの管理に役立つように、他の AWS のサービス やサードパーティのサービスおよびツールと統合されています。詳細については、「Product and service integrations with Incident Manager」を参照してください。

Incident Manager へのアクセス

Incident Manager には、次のいずれかの方法でアクセスできます。

Incident Manager のリージョンとクォータ

Incident Manager は、Systems Manager がサポートしているすべての AWS リージョン でサポートされているわけではありません。

Incident Manager のリージョンおよびクォータに関する情報を確認するには、「Amazon Web Services 全般のリファレンス」の「AWS Systems Manager Incident Manager エンドポイントとクォータ」を参照してください。

Incident Manager の価格

Incident Manager の使用には料金がかかりますか。詳細については、「AWSSystems Manager の料金」を参照してください。

注記

このサービスに関連して提供される他の AWS のサービス、AWS コンテンツ、およびサードパーティコンテンツには、別途料金がかかり、追加条件が適用される場合があります。

AWS 環境のコスト、セキュリティ、およびパフォーマンスの最適化に役立つサービスである Trusted Advisor の概要については、「AWS Support ユーザーガイド」の「AWS Trusted Advisor」を参照してください。