在 Incident Manager 中執行事件後分析 - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Incident Manager 中執行事件後分析

事件後分析會引導您識別事件回應的改進,包括偵測和緩解的時間。分析也可以協助您了解事件的根本原因。Incident Manager 會建立建議的動作項目,以改善您的事件回應。

事件後分析的優點
  • 改善事件回應

  • 了解問題的根本原因

  • 使用可交付動作項目解決根本原因

  • 分析事件的影響

  • 在組織內擷取和共用學習

不對 使用分析的項目

分析是無責的,不會按名稱呼叫人員。

「無論我們發現什麼,我們了解並真心相信,考慮到每個人當時知道的、他們的技能和能力、可用的資源,以及手頭的情況,每個人都能做到最好的工作。」 - Norm Kerth,Project Retrospectives:團隊審核手冊

分析詳細資訊

分析詳細資訊頁面會引導您完成收集資訊、評估改善項目和建立動作項目。分析詳細資訊頁面類似於事件詳細資訊,其中包含一些關鍵差異,例如歷史指標、可編輯時間表和問題,以改善未來的事件。

概觀

概觀是事件的摘要。此摘要包括背景、發生的情況、發生原因、緩解方式、持續時間和關鍵動作項目,以防止再次發生事件。概觀是高階。您將在分析的問題索引標籤中探索更多詳細資訊。

指標

使用指標索引標籤,在事件持續時間內視覺化應用程式中的關鍵指標。您可以在此處新增指標圖表,這些圖表具有相同圖表中描述的一或多個指標。事件期間使用的指標會自動填入此索引標籤。我們建議您在事件期間新增關鍵時間點的描述、標題和註釋。

分析指標圖表時,您可以考慮的一些關鍵時間點:

  • 部署變更

  • 組態變更

  • 事件開始時間

  • 警示時間

  • 參與時間

  • 緩解開始時間

  • 事件解決時間

限制
  • CloudWatch 警示和指標表達式不會從事件匯入。

  • 位於 Incident Manager 不支援之區域中的指標不會從事件匯入。

  • 應用程式帳戶中的指標需要先設定 ,CloudWatch-CrossAccountSharingRole才能建立分析。如需角色的詳細資訊,請參閱 CloudWatch 使用者指南中的跨帳戶跨區域 CloudWatch 主控台。 CloudWatch

時間表

當您深入了解事件時,請描述時間軸上的關鍵時間點。事件時間軸會自動填入此索引標籤。您可以刪除與分析無關的時間點。您也可以新增和編輯時間點,以更準確地描述事件及其影響。

使用時間軸索引標籤來回答您在問題索引標籤上找到有關事件回應的問題

問題

使用 Incident Manager 問題來改善解決應用程式中事件的時間,並減少事件發生。當您回答問題時,請更新指標時間軸索引標籤以確保準確性。這些問題著重於事件回應的這些關鍵層面:

  • 偵測 – 您可以縮短偵測時間嗎? 是否有指標和警示的更新,可以更快地檢測到事件?

  • 診斷 – 您可以縮短診斷時間嗎? 回應計劃或呈報計劃是否有更新,可以更快地吸引合適的回應方?

  • 緩解 – 您可以縮短緩解時間嗎? 是否有您可以新增或改善的 Runbook 步驟?

  • 預防 – 您可以防止未來事件發生嗎? 為了探索事件的根本原因,Amazon 使用 5-Whys方法進行問題調查。

動作

Incident Manager 會建立建議的動作項目,供您在完成問題時檢閱。您可以選擇從此索引標籤接受並完成這些動作,也可以關閉這些動作。您可以透過選擇已捨棄的動作項目來檢閱已捨棄的動作項目。動作項目是一種 OpsItem,連結至 OpsCenter 中的分析和事件。

檢查清單

關閉分析之前,請使用檢查清單來檢閱回應者應採取的動作。當回應者完成檢查清單中的動作時,動作旁的圖示會從橢圓變更為核取記號,表示動作已完成。如果您尚未完成檢查清單項目,則 Incident Manager 會顯示一則訊息,確認回應者想要關閉分析而不完成分析。

分析範本

分析範本提供一組問題,深入探討事件的根本原因。您可以使用這些問題的答案來改善應用程式效能和事件回應。

AWS 標準範本

Incident Manager 根據 AWS 事件回應和問題分析最佳實務提供標準的問題範本,標題為 AWSIncidents-PostIncidentAnalysisTemplate

建立分析範本

我們建議您使用預設AWSIncidents-PostIncidentAnalysisTemplate範本,並新增適用於您的使用案例的其他問題或區段。根據預設範本建立分析範本 使用此範本作為在管理帳戶中建立分析範本的起點。然後,您可以將分析範本複製到您啟用 Incident Manager 的每個區域。

建立分析範本
  1. 呼叫 GetDocument動作,並使用其Name參數下載 AWSIncidents-PostIncidentAnalysisTemplate。如需GetDocument語法的詳細資訊,請參閱 Systems Manager API 參考

  2. 回應中的內容包含用於分析的 JSON 建置區塊。使用問題建置區塊,在分析中插入其他問題。建議您在 Incident questions 區段中新增問題或區段。

  3. 若要建立新的範本,請使用 CreateDocument操作搭配上一個步驟中更新的 JSON。您必須包含下列項目,其中 Analysis_Template_Name是範本的名稱,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

建立分析

  1. 若要建立分析,請從已關閉事件的事件詳細資訊頁面中選擇建立分析

  2. 選擇要從中建立此分析的分析範本,然後輸入分析的描述性名稱。

  3. 選擇 Create (建立)。

您可以產生完整或不完整分析的副本,該分析已格式化為列印。您也可以將此副本儲存為 PDF。您可以一次列印一個分析。目前不支援批次列印多個分析。

列印格式化分析
  1. 開啟 Incident Manager 主控台

  2. 選擇分析索引標籤。

  3. 選擇您要列印的分析標題。

  4. 在分析詳細資訊頁面的右上角,選擇列印

  5. 列印事件分析對話方塊中,清除您不想要包含在列印版本中的分析區段。根據預設,會選取所有區段。

  6. 選擇列印以開啟裝置的本機列印控制項。

  7. 選擇您的列印目的地或格式。您可以選擇本機或網路印表機,也可以將分析儲存為 PDF。如果需要,對其餘列印選項進行任何變更,然後選擇列印

    注意

    本機列印控制項是指 Web 瀏覽器和裝置提供的使用者介面。

    列印目的地是為您的裝置設定,且可從中存取的目的地。