OPS07-BP04 使用程序手冊來調查問題 - 卓越營運支柱

OPS07-BP04 使用程序手冊來調查問題

程序手冊是用來調查事件的逐步指南。事件發生時,我們會使用程序手冊來調查、確認影響範圍和找出根本原因。程序手冊可用於各種情境,從部署失敗到安全性事件皆涵蓋在內。在許多案例中,程序手冊可釐清根本原因,而執行手冊則用來緩解該根本原因。程序手冊是組織事件應變計畫的關鍵要素。

優良的程序手冊有幾個重要的特點。它會透過探索的過程來逐步引導使用者。請試著從各種角度思考,我們應遵循哪些步驟來診斷事件? 透過程序手冊明確定義,在程序手冊中是否需要特殊工具或提高權限。制定溝通計畫,向利害關係人告知調查的最新狀態是關鍵要素。在無法釐清根本原因的狀況下,程序手冊應具備呈報計畫。如果已確定根本原因,程序手冊應指向執行手冊,後者會描述如何解決該根本原因。程序手冊應集中存放並定期維護。如果您使用程序手冊來發出特定警示,請為團隊提供警示中該程序手冊的指標。

隨著組織逐漸成熟,將程序手冊自動化。從涵蓋低風險事件的程序手冊開始。使用指令碼來自動化探索步驟。確保您有配套執行手冊來緩解常見的根本原因。

期望的結果:您的組織具備常見事件的程序手冊。該程序手冊存放在集中的位置,可供團隊成員使用。程序手冊會頻繁更新。對於任何已知的根本原因,都已建立配套執行手冊。

常見的反模式:

  • 調查事件並沒有標準的方法。

  • 團隊成員依賴肌肉記憶或機構知識,來針對失敗的部署進行疑難排解。

  • 新團隊成員會學習如何透過試錯來調查問題。

  • 各個團隊間並未共用調查問題的最佳實務。

建立此最佳實務的優勢:

  • 程序手冊可為您省下緩解事件所需的心力。

  • 不同的團隊成員可以使用相同的程序手冊,以一致的方式找出根本原因。

  • 您可以為已知的根本原因制定執行手冊,進而縮短復原時間。

  • 程序手冊可協助團隊成員更快做出貢獻。

  • 團隊可以透過可重複的程序手冊擴展其程序。

未建立此最佳實務時的風險暴露等級:

實作指引

您如何根據組織的成熟度來建立和使用程序手冊。如果您剛接觸雲端,請在中央文件儲存庫中建立文字形式的程序手冊。隨著組織逐漸成熟,您就可以透過 Python 之類的指令碼語言將程序手冊半自動化。您可以在 Jupyter 筆記本中執行這些指令碼來加快探索速度。先進的組織具有全自動化的程序手冊,這些手冊適用於透過執行手冊自動修復的常見問題。

透過列出在您工作負載中發生的常見事件,來開始建立程序手冊。為低風險以及根本原因的範圍已縮減至幾個問題的事件選擇程序手冊,然後開始。在您為較簡單情境建立程序手冊後,請接著嘗試風險較高或尚未確定根本原因的情境。

隨著組織逐漸成熟,應將您的文字程序手冊自動化。使用 AWS Systems Manager 自動化等服務時,可以將平面文字轉換為自動化。您可以針對工作負載執行這些自動化來加快調查速度。您可以啟動這些自動化來回應事件、縮短事件探索和解決的平均時間。

客戶可以使用 AWS Systems Manager Incident Manager 回應事件。此服務提供單一介面分類事件、在探索和緩解期間通知利害關係人,並在整個事件期間進行合作。此服務使用 AWS Systems Manager 自動化來加快偵測和復原速度。

客戶範例

生產事件會影響 AnyCompany Retail。待命的工程師使用程序手冊來調查問題。隨著透過步驟取得進展時,該工程師會確保程序手冊中識別的重要利害關係人都能了解最新進展。他發現根本原因是後端服務中的一項競賽條件。該工程師使用執行手冊,重新啟動服務,使 AnyCompany Retail 重新上線。

實作步驟

如果您沒有現有的文件儲存庫,我們建議為程序手冊程式庫建立版本控制儲存庫。您可以使用 Markdown 建立程序手冊,Markdown 與多數程序手冊自動化系統都相容。如果您是從頭開始建立,請使用以下範例程序手冊範本。

# Playbook Title ## Playbook Info | Playbook ID | Description | Tools Used | Special Permissions | Playbook Author | Last Updated | Escalation POC | Stakeholders | Communication Plan | |-------|-------|-------|-------|-------|-------|-------|-------|-------| | RUN001 | What is this playbook for? What incident is it used for? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | Stakeholder Name | How will updates be communicated during the investigation? | ## Steps 1. Step one 2. Step two
  1. 如果您沒有現有的文件儲存庫或 Wiki,請在版本控制系統中為程序手冊建立新的版本控制儲存庫。

  2. 找出需要調查的常見問題。應存在根本原因僅限於幾個問題的情境,解決方案的風險很低。

  3. 使用 Markdown 範本,填寫「程序手冊名稱」部分和「程序手冊資訊」下的欄位。

  4. 填寫疑難排解步驟。盡可能清楚說明要執行哪些動作或應調查哪些地方。

  5. 將程序手冊提供給團隊成員,讓成員透過該手冊來進行驗證。如果缺少任何資訊或內容不清楚,請更新程序手冊。

  6. 在文件儲存庫中發佈程序手冊,並通知團隊和任何利害關係人。

  7. 此程序手冊程式庫會隨著您新增更多程序手冊而成長。在您有數本程序手冊後,請開始使用 AWS Systems Manager 自動化之類的工具來進行自動化,進而確保自動化和程序手冊都能保持同步。

實作計畫的工作量:低。程序手冊應為集中存放的文字文件。越來越多發展成熟的組織會開始自動化程序手冊。

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例:

相關服務: