在 Incident Manager 中執行事件後分析 - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Incident Manager 中執行事件後分析

事件後分析會引導您識別事件回應的改進,包括偵測和緩解的時間。分析也可以協助您了解事件的根本原因。Incident Manager 會建立建議的動作項目,以改善您的事件回應。

事後分析的好處
  • 改善事件回應

  • 了解問題的根本原因

  • 使用可交付動作項目解決根本原因

  • 分析事件的影響

  • 在組織內擷取和共用學習

不對 使用分析的項目

分析是無責的,不會按名稱叫出人員。

「無論我們發現什麼,我們了解並真正相信,考慮到每個人當時知道的、他們的技能和能力、可用的資源和手頭的情況,每個人都能做到最好的工作。」 - Norm Kerth,Project Retrospectives:團隊審核手冊

分析詳細資訊

分析詳細資訊頁面會引導您完成收集資訊、評估改進和建立動作項目。分析詳細資訊頁面類似於事件詳細資訊,其中包含一些關鍵差異,例如歷史指標、可編輯時間表和問題,以改善未來的事件。

概觀

概觀是事件的摘要。此摘要包括背景、發生的情況、發生原因、緩解方式、持續時間和關鍵動作項目,以防止事件再次發生。概觀是高階。您將在分析的問題索引標籤中探索更多詳細資訊。

指標

使用指標索引標籤,在事件持續時間內視覺化應用程式中的關鍵指標。您可以在此處新增指標圖形,這些圖形具有相同圖形中描述的一或多個指標。事件期間使用的指標會自動填入此索引標籤。我們建議您在事件期間新增關鍵時間點的描述、標題和註釋。

分析指標圖形時,您可以考慮的一些關鍵時間點:

  • 部署變更

  • 組態變更

  • 事件開始時間

  • 警示時間

  • 參與時間

  • 緩解開始時間

  • 事件解決時間

限制
  • CloudWatch 警示和指標表達式不會從事件匯入。

  • 位於 Incident Manager 不支援的區域中的指標不會從事件匯入。

  • 應用程式帳戶中的指標需要先設定 ,CloudWatch-CrossAccountSharingRole才能建立分析。如需角色的詳細資訊,請參閱 CloudWatch 使用者指南中的跨帳戶跨區域 CloudWatch 主控台

時間表

當您深入了解事件時,請描述時間軸上的關鍵時間點。事件時間表會自動填入此索引標籤。您可以刪除與分析無關的時間點。您也可以新增和編輯時間點,以更準確地描述事件及其影響。

使用時間軸索引標籤來回答您在問題索引標籤上找到的有關事件回應的問題

問題

使用 Incident Manager 問題來改善應用程式中事件的解決時間,並減少事件的發生。當您回答問題時,請更新指標時間軸索引標籤以確保準確性。這些問題著重於事件回應的這些關鍵層面:

  • 偵測 – 您可以縮短偵測時間嗎? 是否有指標和警示的更新,可以更快地檢測到事件?

  • 診斷 – 您可以改善診斷的時間嗎? 回應計畫或呈報計劃是否有更新,可以更快地吸引合適的回應方?

  • 緩解 - 您可以改善緩解的時間嗎? 是否有您可以新增或改善的 Runbook 步驟?

  • 預防 – 您可以防止未來事件發生嗎? 為了探索事件的根本原因,Amazon 使用 5-Whys方法進行問題調查。

動作

Incident Manager 會建立建議的動作項目,供您在完成問題時檢閱。您可以選擇從此索引標籤接受並完成這些動作,也可以關閉這些動作。您可以透過選擇 已捨棄的動作項目 來檢閱已捨棄的動作項目。動作項目是 的一種類型 OpsItem ,連結至 中的分析和事件 OpsCenter。

檢查清單

關閉分析之前,請使用檢查清單來檢閱回應者應採取的動作。當回應者完成檢查清單中的動作時,動作旁的圖示會從橢圓變更為核取記號,表示動作已完成。如果您尚未完成檢查表項目,則 Incident Manager 會顯示一則訊息,以確認回應者想要關閉分析而不完成分析。

分析範本

分析範本提供一組問題,深入探討事件的根本原因。您可以使用這些問題的答案來改善應用程式效能和事件回應。

AWS 標準範本

Incident Manager 根據 AWS 事件回應和問題分析最佳實務提供標準問題範本,標題為 AWSIncidents-PostIncidentAnalysisTemplate

建立分析範本

我們鼓勵您使用預設AWSIncidents-PostIncidentAnalysisTemplate範本,並新增適用於您的使用案例的其他問題或區段。根據預設範本建立分析範本 使用此範本作為在管理帳戶中建立分析範本的起點。然後,您可以將分析範本複製到您啟用 Incident Manager 的每個區域。

建立分析範本
  1. 呼叫GetDocument動作並使用其Name參數下載 AWSIncidents-PostIncidentAnalysisTemplate。如需GetDocument語法的詳細資訊,請參閱 Systems Manager API參考

  2. 回應中的內容包含分析的JSON建置區塊。使用問題建置區塊,在分析中插入其他問題。建議您在 Incident questions 區段中新增問題或區段。

  3. 若要建立新範本,請使用 CreateDocument操作,並更新JSON上一步的 。您必須包含下列項目,其中 Analysis_Template_Name是範本的名稱,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

建立分析

  1. 若要建立分析,請從已關閉事件的事件詳細資訊頁面中選擇建立分析

  2. 選擇要從中建立此分析的分析範本,然後輸入分析的描述性名稱。

  3. 選擇 Create (建立)。

您可以產生已格式化以供列印的完整或不完整分析副本。您也可以將此副本儲存為 PDF。您可以一次列印一個分析。目前不支援批次列印多個分析。

若要列印格式化分析
  1. 開啟 Incident Manager 主控台

  2. 選擇分析索引標籤。

  3. 選擇您要列印的分析標題。

  4. 在分析詳細資訊頁面的右上角,選擇列印

  5. 列印事件分析對話方塊中,清除您不想要包含在列印版本中的分析區段。根據預設,會選取所有區段。

  6. 選擇列印以開啟裝置的本機列印控制項。

  7. 選擇您的列印目的地或格式。您可以選擇本機或網路印表機,也可以將分析儲存至 PDF。如果需要,對其餘列印選項進行任何變更,然後選擇列印

    注意

    本機列印控制項是指 Web 瀏覽器和裝置提供的使用者介面。

    列印目的地是為您的裝置設定的目的地,且可從您的裝置存取。