本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
OPS10-BP01 使用事件、事件和問題管理的程序
有效管理事件、事故和問題的能力是維持工作負載運作狀態和效能的關鍵。識別和理解這些元素之間的差異,以制定有效的回應和解決策略至關重要。為每個方面建立並遵循明確定義的流程,有助於您的團隊迅速且有效地處理出現的任何運營挑戰。
預期成果:您的組織透過詳細記錄且集中儲存的流程,有效地管理營運事件、事故和問題。這些流程會持續更新以反映變更,簡化處理並維持高服務可靠性和工作負載效能。
常見的反模式:
-
您會反應性地 (而非主動) 回應事件。
-
對不同類型的事件或事故採取不一致的方法。
-
您的組織不會分析事件並從中學習,以防止未來再次發生。
建立此最佳實務的優勢:
-
簡化且標準化的回應流程。
-
減少事件對服務和客戶的影響。
-
加速解決問題。
-
持續改善營運流程。
未建立此最佳實務時的曝險等級:高
實作指引
實作此最佳實務表示您正在追蹤工作負載事件。您有處理事件和問題的程序。會經常記錄、共用和更新這些程序。問題經識別後會定出優先順序,然後獲得修正。
了解事件、事故和問題
-
事件:事件是對動作、狀況或狀態變化的觀察。事件可以經過計劃或未計劃,並且事情可以在工作負載內部或外部產生。
-
事故:事故是指需要回應的事件,例如意外中斷或服務品質下降。它們表示需要立即注意以恢復正常工作負載操作的中斷。
-
問題:問題是一個或多個事故的根本原因。識別和解決問題涉及更深入地研究事故,以防止將未來再次發生。
實作步驟
事件
-
監控事件:
-
使用者、角色 AWS 或服務採取的監控動作會在 中記錄為事件AWS CloudTrail
。 -
使用 Amazon EventBridge
即時回應應用程式中的操作變更。 -
使用 AWS Config
持續評估、監控和記錄資源組態變更。
-
建立程序:
-
制定一個程序來評估哪些事件重要並需要監控。這涉及設定正常和異常活動的閾值和參數。
-
確定將事件升級為事故的條件。這可以基於嚴重性、對使用者的影響或與預期行為的偏差。
-
定期檢閱事件監控和回應程序。這包括分析過去的事件、調整閾值以及完善警示機制。
-
事故
-
回應事故:
-
使用可觀測性工具的洞察力,快速識別並回應事故。
-
實作 AWS Systems Manager Ops Center
以彙總、組織營運項目和事故,並排定優先順序。 -
使用 Amazon CloudWatch
和 等服務AWS X-Ray 進行更深入的分析和疑難排解。 -
考慮 AWS Managed Services (AMS)
以增強事件管理,並利用其主動、預防性和偵測功能。AMS 透過監控、事件偵測和回應以及安全管理等服務擴展營運支援。 -
Enterprise Support 客戶可利用 AWS 事件偵測與回應
功能,為生產工作負載提供持續的主動監控和事件管理。
-
-
建立事件管理程序:
-
建立結構化的事件管理流程,包括清晰的角色、通訊協定和解決步驟。
-
將事件管理與諸如 AWS Chatbot
等工具整合,以實現有效率的回應和協調。 -
依嚴重性將事件分類,並針對每個類別預先定義事件回應計畫。
-
-
學習和改進:
問題
-
識別問題:
-
使用先前事件的資料來識別可能指出更深層次系統性問題的週期性模式。
-
利用 AWS CloudTrail
和 Amazon CloudWatch 等工具來分析趨勢並發現潛在問題。 -
與包括營運、開發和業務單位在內的跨職能團隊合作,以獲得有關根本原因的不同觀點。
-
-
建立問題管理程序:
-
制定問題管理的結構化程序,專注於長期解決方案,而不是快速修復。
-
結合根本原因分析 (RCA) 技術,以調查和了解事件的根本原因。
-
根據調查結果更新營運政策、程序和基礎設施,以防止重複發生。
-
-
持續改善:
-
培養不斷學習和改進的文化,鼓勵團隊積極識別和解決潛在問題。
-
定期審查和修訂問題管理程序和工具,以配合不斷發展的業務和技術環境。
-
在整個組織中分享見解和最佳實務,以建立更具彈性且更有效率的營運環境。
-
-
使用 AWS Support:
-
使用 AWS 支援資源,例如 AWS Trusted Advisor
,以取得主動指引和最佳化建議。 -
Enterprise Support 客戶可以在重大事件期間存取 AWS Countdown
等專業計畫以取得支援。
-
實作計劃的工作量:中
資源
相關的最佳實務:
相關文件:
相關影片:
相關範例:
相關服務: