とは AWS Systems Manager Incident Manager - Incident Manager

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

とは AWS Systems Manager Incident Manager

の一機能である Incident Manager は AWS Systems Manager、 でホストされているアプリケーションに影響するインシデントを軽減し、復旧するのに役立ちます AWS。

のコンテキストでは AWS、インシデントとは、ビジネスオペレーションに大きな影響を与える可能性のある、サービスの品質の予期しない中断または低下です。したがって、組織にとって、インシデントを効率的に軽減して回復するための対応戦略を確立し、将来のインシデントを防ぐための措置を実行することが重要です。

Incident Manager は、以下の方法でインシデント解決にかかる時間を短縮できます。

  • インシデント対応の責任者を効率的にエンゲージさせるための自動計画を提供する。

  • 関連するトラブルシューティングデータを提供する。

  • 定義済みのオートメーションランブックを使用して、自動対応アクションを有効にする。

  • すべてのステークホルダーと協力し連絡を取る方法を提供する。

Incident Manager に組み込まれている機能とワークフローは、Amazon がほぼ設立当初から開発してきたインシデント対応のベストプラクティスに基づいています。Incident Manager は、Amazon CloudWatch、 AWS CloudTrail AWS Systems Manager、および Amazon AWS のサービス などの と統合されます EventBridge。

主なコンポーネントと機能

このセクションでは、インシデント対応計画のセットアップに使用する Incident Manager の機能について説明します。

対応計画

対応計画は、インシデント発生時に何を準備する必要があるかを定義するテンプレートとして機能します。これには以下のような情報が含まれます。

  • インシデント発生時に対応を求められるのは誰か。

  • インシデントを軽減するための確立された自動対応。

  • 応答者が連絡を取り、インシデントに関する自動通知を受け取るために使用する必要があるコラボレーションツール。

インシデント検知

AWS リソースに影響する条件や変更が検出されたときにインシデントを作成するように Amazon CloudWatch アラームと Amazon EventBridge イベントを設定できます。

ランブックオートメーションサポート

Incident Manager 内からオートメーションランブックを開始して、インシデントへの重要な対応を自動化し、最初の応答者に詳細なステップを提供します。

エンゲージメントとエスカレーション

エンゲージメント計画は、一意のインシデントが発生するたびに全員に通知するように指定します。Incident Manager に追加した個々の連絡先を指定することも、Incident Manager で作成したオンコールスケジュールを指定することもできます。また、エンゲージメント計画は、エスカレーションパスを指定して、ステークホルダーの間での可視性およびインシデント対応プロセスへの積極的な参加を確保できるようにします。

オンコールスケジュール

Incident Manager のオンコールスケジュールは、そのスケジュール用に作成する 1 つ以上のローテーションで構成されます。各ローテーションには、最大 30 個の連絡先を含めることができます。オンコールスケジュールは、エスカレーション計画または対応計画に追加すると、応答者の介入が必要なインシデントが発生した場合に誰が通知を受けるかを定義します。オンコールスケジュールは、インシデント対応に必要な完全かつ冗長な 24 時間 365 日のカバレッジを確保するのに役立ちます。

アクティブコラボレーション

Incident Responseers は、 AWS Chatbot クライアントとの統合を通じてインシデントにアクティブに対応します。 は、 を使用する Incident Manager のチャットチャネルの作成 AWS Chatbot をサポートします。Slack, Microsoft Teams、または Amazon Chime。レスポンダーは、相互に直接通信し、インシデントに関する自動通知を受信し、Slack また、Microsoft Teams— Incident Manager コマンドラインインターフェイス (CLI) オペレーションを直接実行します。

インシデント診断

レスポンダーは、インシデント中に Incident Manager コンソールで情報を表示できます up-to-date。その後、応答者は情報の変更に基づき、オートメーションランブックを使用してフォローアップ項目を作成し、それらを修正できます。

他のサービスからの検出結果

応答者のインシデント診断をサポートするために、Incident Manager の検出結果機能を有効にできます。検出結果は、インシデントの発生時に発生した AWS CodeDeploy デプロイと AWS CloudFormation スタックの更新に関する情報であり、インシデントに関連する可能性のある 1 つ以上のリソースが関係しています。この情報があると、潜在的な原因を評価するのに必要な時間が短縮され、インシデントから (MTTR) を復旧する平均時間が短縮される可能性があります。

インシデント後分析

インシデントが解決されたら、インシデント後分析を使用して、検出および緩和までの時間など、インシデント対応を改善するための改善点を特定します。分析は、インシデントの原因を理解するのに役立ちます。Incident Manager は、インシデント対応を改善するために使用できる推奨フォローアップアクション項目を作成します。

Incident Manager を使用する利点

インシデント検出および対応業務に Incident Manager を使用することの利点について説明します。

このセクションでは、Incident Manager 対応計画を実装することで組織が得られる利点について説明します。

問題を効率的かつ即時に診断する

設定した Amazon CloudWatch アラームと Amazon EventBridge イベントは、サービスの品質に予期しない中断や低下が発生した場合に、インシデントを自動的に作成できます。

CloudWatch アラームは、複数の期間にわたってしきい値に関連するメトリクスまたは式の値に変更があった場合に検出して報告します。 EventBridge イベントは、 EventBridge ルールで指定した環境、アプリケーション、またはサービスの変更の結果として作成されます。アラームまたはイベントを作成する場合、Incident Manager で作成するインシデントのアクション、およびインシデントのエンゲージメント、エスカレーション、緩和を円滑に進めるための適切な対応計画を指定できます。

Incident Manager は、メトリクスを使用して、インシデントに関連する CloudWatch メトリクスを自動的に収集および追跡する機能を提供します。 CloudWatch アラームを使用して作成されたインシデントに対して生成された自動メトリクスに加えて、メトリクスを手動でリアルタイムで追加して、インシデントのレスポンダーに追加のコンテキストとデータを提供できます。

Incident Manager インシデントタイムラインを使用して、POI を時系列で表示します。応答者は、タイムラインを使用してカスタムイベントを追加し、自分が何をしたのか、何が起こったのかを説明することもできます。自動化された POI は次のとおりです。

  • CloudWatch アラームまたは EventBridge ルールはインシデントを作成します。

  • インシデントメトリクスは Incident Manager に報告されます。

  • 応答者はエンゲージしています。

  • ランブックのステップは正常に完了しました。

効果的にエンゲージさせる

Incident Manager は、連絡先、オンコールスケジュール、エスカレーション計画、チャットチャネルを使用して、インシデント応答者をまとめます。Incident Manager で個々の問い合わせを直接定義しSMS、問い合わせ設定 (E メール、、または音声) を指定します。オンコールスケジュールのローテーションに連絡先を追加して、特定の期間に誰をインシデントにエンゲージさせるかを決定します。定義された連絡先およびオンコールスケジュールを使用して、インシデント中に適切なタイミングで必要な応答者をエンゲージさせるエスカレーション計画を作成します。

リアルタイムで協力する

インシデント中のコミュニケーションは、より迅速な解決の鍵です。クライアント設定の使用 AWS Chatbot Slack, Microsoft Teams、または Amazon Chime では、レスポンダーを好みの接続されたチャットチャネルにまとめることができます。ここで、レスポンダーはインシデントと相互に直接やり取りします。また、Incident Manager は、チャットチャネル内のインシデント応答者のリアルタイムアクションを表示し、他のユーザーにコンテキストを提供します。

サービスの復旧を自動化する

Incident Manager では、オートメーションランブックを使用することで、応答者はインシデントの解決に必要な主要タスクに集中できます。Incident Manager では、ランブックは、インシデントを解決するために実行される事前定義された一連のアクションです。必要に応じて、自動タスクの力と手動ステップを組み合わせて、応答者が影響を分析して対応できるようにします。

将来のインシデントを防ぐ

Incident Manager によるインシデント後分析により、チームはより強固な対応計画を策定し、アプリケーション全体で変更を反映させて、将来のインシデントおよびダウンタイムを防ぐことができます。インシデント後分析は、ランブック、対応計画、およびメトリクスの反復学習および改善も提供します。

Incident Manager は、インシデントを検出 AWS のサービス して解決し、そのAPIオペレーションを間接的に操作し、インフラストラクチャを管理するのに役立つ、他のいくつかのサービスやツールやサードパーティーのサービスとツールと統合されています。詳細については、「Product and service integrations with Incident Manager」 を参照してください。

Incident Manager へのアクセス

Incident Manager には、次のいずれかの方法でアクセスできます。

Incident Manager のリージョンとクォータ

Incident Manager は、Systems Manager で AWS リージョン サポートされているすべての でサポートされているわけではありません。

Incident Manager のリージョンおよびクォータに関する情報を確認するには、「Amazon Web Services 全般のリファレンス」の「AWS Systems Manager Incident Manager エンドポイントとクォータ」を参照してください。

Incident Manager の価格

Incident Manager の使用には料金がかかりますか。詳細については、「AWS Systems Manager の料金」を参照してください。

注記

このサービスに関連して提供されるその他の AWS のサービス、 AWS コンテンツ、およびサードパーティーのコンテンツには、別途料金が課され、追加の条件が適用される場合があります。

AWS 環境のコスト Trusted Advisor、セキュリティ、パフォーマンスを最適化するのに役立つサービスである の概要については、 ユーザーガイドAWS Trusted Advisorの「」を参照してください。 AWS Support