OPS07-BP03 使用 Runbook 執行程序 - 卓越運作支柱

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

OPS07-BP03 使用 Runbook 執行程序

執行手冊是為了達成特定成果而記錄的程序。執行手冊由一系列可供遵循以完成某項工作的步驟組成。早在航空業早期,就已使用執行手冊。在雲端操作中,我們使用執行手冊來降低風險及達到預期成果。簡言之,執行手冊就是完成一項工作的檢查清單。

執行手冊是操作工作負載的重要組成部分。從新團隊成員入職到部署重大版本,執行手冊是經過編纂的流程,無論誰使用這些執行手冊,都能提供一致的成果。應該在中央位置發布執行手冊,並隨著流程的發展進行更新,因為更新執行手冊是變更管理流程的關鍵組成部分。它們還應該包括當發生問題時有關錯誤處理、工具、權限、異常以及向上呈報的指引。

隨著組織的成熟,開始自動化執行手冊。從簡短且經常使用的執行手冊開始。使用指令碼語言來自動化步驟或讓步驟更容易執行。當您自動化前幾個執行手冊時,將花費時間來自動化更複雜的執行手冊。隨著時間的推移,大多數執行手冊都應該以某種方式自動化。

預期結果:您的團隊有一系列 step-by-step執行工作負載任務的指南。執行手冊中包含預期成果、必要的工具和許可,以及錯誤處理指示。它們會集中存放 (版本控制系統),並且經常更新。例如,您的 Runbook 為您的團隊提供在應用程式警示、操作問題和規劃的生命週期 AWS Health 事件期間監控、通訊和回應重要帳戶事件的功能。

常見的反模式:

  • 依靠記憶體來完成流程的每個步驟。

  • 手動部署變更,無需檢查清單。

  • 不同的團隊成員執行相同的過程,但具有不同的步驟或成果。

  • 讓執行手冊脫離系統變更和自動化。

建立此最佳實務的優勢:

  • 降低手動任務的錯誤率。

  • 以一致的方式執行操作。

  • 新的團隊成員可以更快地開始執行任務。

  • 可以自動化執行手冊以減少辛勞。

未建立此最佳實務時的曝險等級:

實作指引

執行手冊可以根據組織的成熟度等級採用多種形式。它們至少應該包含 step-by-step文字文件。應明確指出預期成果。清楚記錄必要的特殊權限或工具。如果發生問題,提供有關錯誤處理和呈報的詳細指引。列出執行手冊擁有者並將其發布在中央位置。執行手冊被記錄下來之後,透過讓團隊中的其他人執行它來進行驗證。隨著程序的發展,請根據您的變更管理流程來更新執行手冊。

隨著組織的成熟,應自動化文字執行手冊。使用 AWS Systems Manager Automation 等服務,可以將純文字轉換為可針對工作負載執行的自動化功能。這些自動化可以用來回應事件,減少維護工作負載的操作負擔。 AWS Systems Manager Automation 還提供低程式碼視覺化設計體驗,以更輕鬆地建立自動化 Runbook。

客戶範例

AnyCompany 零售必須在軟體部署期間執行資料庫結構描述更新。雲端操作團隊與資料庫管理團隊合作,建立用於手動部署這些變更的執行手冊。執行手冊以檢查清單的形式列出流程中的每個步驟。它包括發生問題時關於錯誤處理的部分。他們在其內部 wiki 中發布該執行手冊以及其他執行手冊。雲端操作團隊計劃在未來的衝刺中自動化該執行手冊。

實作步驟

如果您沒有現有的文件儲存庫,版本控制儲存庫是開始建置執行手冊庫的好地方。可以使用 Markdown 來構建執行手冊。我們提供了一個執行手冊範本範例,您可以使用它來開始構建執行手冊。

# Runbook Title ## Runbook Info | Runbook ID | Description | Tools Used | Special Permissions | Runbook Author | Last Updated | Escalation POC | |-------|-------|-------|-------|-------|-------|-------| | RUN001 | What is this runbook for? What is the desired outcome? | Tools | Permissions | Your Name | 2022-09-21 | Escalation Name | ## Steps 1. Step one 2. Step two
  1. 如果您沒有現有的文件儲存庫或 wiki,請在版本控制系統中建立新的版本控制儲存庫。

  2. 識別沒有執行手冊的流程。理想的流程是半定期執行,步驟數量少,並且具有低影響故障。

  3. 在文件儲存庫中,使用範本建立新的 Markdown 草稿文件。填寫執行手冊標題和執行手冊資訊下的必填欄位。

  4. 從第一個步驟開始,填寫執行手冊的「步驟」部分。

  5. 將執行手冊交給團隊成員。讓他們使用執行手冊來驗證步驟。如果缺少某些內容或需要澄清,請更新執行手冊。

  6. 將執行手冊發布到您的內部文件存放區。發布後,告知您的團隊和其他利益相關者。

  7. 隨著時間的推移,您將建置執行手冊的程式庫。隨著程式庫的增長,開始努力自動化執行手冊。

實作計劃的工作量:低。Runbook 的最低標準是 step-by-step文字指南。自動化執行手冊可以增加實作工作量。

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例:

相關服務: