OPS11-BP02 執行事後分析 - 卓越運作支柱

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

OPS11-BP02 執行事後分析

審查影響客戶的事件,並識別造成問題的因素和預防性動作。使用此資訊來開發緩解措施,以限制或防止事件再次發生。制定可快速有效回應的程序。適當地傳達成因和為目標受眾量身打造的糾正措施。

預期成果:

  • 您已建立包含事件後分析的事件管理程序。

  • 您已制定可觀測性計畫,可收集有關事件的資料。

  • 透過這些資料,您就可以了解並收集支援事件後分析程序的指標。

  • 您可以從事件中學習,以改善未來的成果。

常見的反模式:

  • 管理應用程式伺服器。大約每 23 小時 55 分鐘,您的所有活動工作階段都會終止。您試圖確定應用程式伺服器出了什麼問題。您懷疑這可能是網路問題,但由於網路團隊太忙而無法支援您,因此無法與他們合作。您缺乏可遵循的預定義流程來獲得支援並收集所需資訊以確定發生了什麼。

  • 您的工作負載中有資料遺失。這是第一次發生,原因尚不清楚。您認為這並不重要,因為您可以重新建立資料。資料遺失開始更頻繁地出現,從而影響客戶。當您還原遺失的資料時,這也會為您帶來額外的操作負擔。

建立此最佳實務的優勢:

  • 您有一個預先定義的程序來判斷造成事故的元件、條件、動作和事件,這有助於您找出改進機會。

  • 可以使用事件後分析的資料進行改善。

未建立此最佳實務時的曝險等級:

實作指引

使用程序判斷成因。審查所有影響客戶的事件。建立程序來識別和記錄事件的成因,以便您可以制定緩解措施來限制或防止事件再次發生。另外,您還可以制定快速有效地做出回應的程序。酌情溝通事件根本原因,並根據目標受眾量身定制溝通方式。在組織內公開分享學習成果。

實作步驟

  1. 收集諸如部署變更、組態變更、事件開始時間、警示時間、參與時間、緩解開始時間和事件解決時間等指標。

  2. 描述時間軸上的關鍵時間點,以了解事故的事件。

  3. 請提出以下問題:

    1. 您可以縮短偵測時間嗎?

    2. 是否有指標和警示的更新,可以更快地檢測到事件?

    3. 可以改善診斷時間嗎?

    4. 回應計畫或呈報計劃是否有更新,可以更快地吸引合適的回應方?

    5. 可以改善緩解時間嗎?

    6. 是否有可以新增或改善的執行手冊或說明手冊步驟?

    7. 可以防止未來的事件發生嗎?

  4. 建立檢查清單和動作。追蹤並傳遞所有動作。

實作計劃的工作量:

資源

相關的最佳實務:

相關文件: