翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Incident Manager でのインシデント後分析の実行
インシデント後分析により、検出までの時間や緩和など、インシデントへの対応を改善するための改善点を特定する手順が示されます。分析は、インシデントの原因を理解するのに役立ちます。Incident Manager は、インシデント対応を改善するための推奨 アクション項目 を作成します。
インシデント後分析の利点
-
インシデント対応の改善
-
問題の根本原因への理解
-
配信性能なアクション項目で根本原因に対処することができる
-
インシデントの影響の分析
-
組織内で学習内容をキャプチャして共有する
分析してはいけないもの
分析に罪はなく、人を名指しで呼ぶこともありません。
「何が発見されたかにかかわらず、私たちは、当時の知識、スキル、能力、利用可能なリソース、状況に応じて、全員ができる限りの仕事をしたと理解し、それを心から信じています。」 - Norm Kerth『Project Retrospectives: A Handbook for Team Review』
分析の詳細
分析の詳細ページでは、情報の収集、改善の評価、およびアクション項目の作成について説明します。分析の詳細ページは、インシデントの詳細と似ていますが、履歴メトリクス、編集可能なタイムライン、今後のインシデントを改善するための質問など、いくつかの重要な 違い があります。
概要
概要はインシデントのサマリーです。このサマリーには、背景、何が起こったのか、発生した理由、緩和方法、期間、およびインシデントが再び発生しないようにするための主要なアクション項目が含まれます。概要は高レベルです。詳細は、分析の 質問 タブで確認できます。
メトリクス
[メトリクス] タブを使用して、インシデント期間中のアプリケーション内の主要なメトリクスを視覚化します。同じグラフに 1 つ以上のメトリクスが表示されたメトリクスグラフをここに追加できます。インシデント中に使用されるメトリクスは、このタブに自動的に入力されます。インシデント中の主要なタイムポイントの説明、タイトル、注釈を追加することをお勧めします。
メトリクスグラフの分析時に考慮できる重要な時点:
-
デプロイの変更
-
設定変更
-
インシデント開始時刻
-
アラーム時刻
-
エンゲージメント時刻
-
緩和の開始時刻
-
インシデント解決時刻
制限事項
-
CloudWatch アラームとメトリクス式はインシデントからインポートされません。
-
Incident Manager がサポートしていないリージョンにあるメトリクスは、インシデントからインポートされません。
-
アプリケーションアカウントのメトリクスは、分析を作成する前に
CloudWatch-CrossAccountSharingRole
の設定が必要です。ロールの詳細については、 CloudWatch ユーザーガイドの「クロスアカウントクロスリージョン CloudWatch コンソール」を参照してください。
タイムライン
インシデントの理解を深めながら、タイムライン上の重要な時点を説明してください。インシデントのタイムラインは、このタブに自動的に入力されます。分析に関係のないタイムポイントを削除できます。また、時点を追加・編集して、インシデントとその影響をより正確に記述することもできます。
[タイムライン] タブでは、 質問 タブで見つけたインシデント対応に関する質問に答えます。
Questions
Incident Manager の質問を使用して、アプリケーション内のインシデントの解決までの時間を短縮し、インシデントの発生を減らします。質問に答えながら、メトリクス と タイムライン タブを更新して、精度を確認します。これらの質問は、インシデント対応の主な側面に焦点を当てています。
-
検出 — 検出までの時間を改善できますか。インシデントを早く検出するメトリクスとアラームの更新はありますか。
-
診断 — 診断までの時間を改善できますか。対応計画またはエスカレーション計画の更新があり、正しい応答者をより早くエンゲージすることはありますか。
-
緩和 — 緩和までの時間を改善できますか。追加または改善できるランブックステップはありますか。
-
予防 — 今後のインシデントの発生を防ぐことはできますか。インシデントの根本原因を発見するために、Amazon は問題調査で 5-Whys アプローチを使用しています。
アクション
Incident Manager は、質問の完了時にレビューするための推奨アクション項目を作成します。このタブでは、これらのアクションを受け入れて完了するか、これらのアクションを却下するかを選択できます。却下されたアクション項目を確認するには、却下されたアクション項目を選択します。アクション項目は、 の分析とインシデントにリンク OpsItem されている のタイプです OpsCenter。
チェックリスト
分析を閉じる前に、チェックリストを使用して、応答者が実行すべきアクションを確認します。応答者がチェックリスト内のアクションを完了すると、アクションの横にあるアイコンが楕円からチェックマークに変わり、アクションが完了したことを示します。チェックリスト項目が完了していない場合、Incident Manager は応答者が分析を完了せずに閉じることを希望していることを確認するメッセージを表示します。
分析テンプレート
分析テンプレートは、インシデントの根本原因を深く掘り下げた一連の質問を提供します。これらの質問に対する回答を使用して、アプリケーションのパフォーマンスとインシデント対応を改善できます。
AWS 標準テンプレート
Incident Manager は、 AWS というタイトルのインシデントレスポンスと問題分析のベストプラクティスに基づいた質問の標準テンプレートを提供しますAWSIncidents-PostIncidentAnalysisTemplate
。
分析テンプレートを作成する
デフォルトの AWSIncidents-PostIncidentAnalysisTemplate
テンプレートを使用し、ユースケースに適した質問やセクションを追加することをお勧めします。デフォルトのテンプレートに基づいて分析テンプレートを作成します。このテンプレートを出発点として使用し、管理アカウントで分析テンプレートを作成します。その後、Incident Manager を有効にした各リージョンに分析テンプレートを複製できます。
分析テンプレートを作成する
-
GetDocument
アクションを呼び出し、そのName
パラメータを使用してAWSIncidents-PostIncidentAnalysisTemplate
をダウンロードします。GetDocument
構文の詳細については、「Systems Manager APIリファレンス」を参照してください。 -
レスポンスの内容には、分析のJSON構成要素が含まれています。質問構築ブロックを使用して、分析に追加の質問を挿入します。
Incident questions
セクションで質問またはセクションを追加することをお勧めします。 -
新しいテンプレートを作成するには、前のステップJSONから更新された で
CreateDocument
オペレーションを使用します。以下を含める必要があります。ここで、
はテンプレートの名前です。Analysis_Template_Name
-
DocumentFormat: "JSON"
-
DocumentType: "ProblemAnalysisTemplate"
-
Name: "
Analysis_Template_Name
"
-
分析の作成
-
分析を作成するには、解決済みのインシデントの「インシデントの詳細」ページから 分析の作成 を選択します。
-
この分析を作成する分析テンプレートを選択し、分析の説明的な名前を入力します。
-
[Create] (作成) を選択します。
フォーマット済みインシデント分析の印刷
印刷用にフォーマットされた完全または不完全な分析のコピーを生成できます。このコピーを として保存することもできますPDF。分析は一度に 1 つずつ印刷できます。現在、複数の分析のバッチ印刷はサポートされていません。
フォーマット済み分析を印刷するには
-
Incident Manager コンソール
を開きます。 -
[分析] タブを選択します。
-
印刷する分析のタイトルを選択します。
-
分析詳細ページの右上の [印刷] を選択します。
-
[インシデント分析の印刷] ダイアログボックスで、印刷バージョンに含めない分析のセクションをクリアします。デフォルトでは、すべてのセクションが選択されています。
-
[印刷] を選択すると、デバイスのローカル印刷コントロールが開きます。
-
印刷先または印刷形式を選択します。ローカルプリンターまたはネットワークプリンターを選択するか、分析を に保存できますPDF。必要に応じて残りの印刷オプションを変更し、[印刷] を選択します。
注記
ローカル印刷コントロールとは、Web ブラウザおよびデバイスが提供するユーザーインターフェイスを指します。
印刷先とは、デバイス用に設定され、デバイスからアクセスできる送信先です。