OPS10-BP01 使用事件、事件和問題管理的程序

有效管理事件、事故和問題的能力是維持工作負載運作狀態和效能的關鍵。識別和理解這些元素之間的差異，以制定有效的回應和解決策略至關重要。為每個方面建立並遵循明確定義的流程，有助於您的團隊迅速且有效地處理出現的任何運營挑戰。

預期成果：您的組織透過詳細記錄且集中儲存的流程，有效地管理營運事件、事故和問題。這些流程會持續更新以反映變更，簡化處理並維持高服務可靠性和工作負載效能。

常見的反模式：

建立此最佳實務的優勢：

未建立此最佳實務時的曝險等級：高

實作指引

實作此最佳實務表示您正在追蹤工作負載事件。您有處理事件和問題的程序。會經常記錄、共用和更新這些程序。問題經識別後會定出優先順序，然後獲得修正。

了解事件、事故和問題

事件

監控事件：
- 實作可觀測性並利用工作負載可觀測性。
- 使用者、角色 AWS 或服務採取的監控動作會在中記錄為事件AWS CloudTrail。
- 使用 Amazon EventBridge即時回應應用程式中的操作變更。
- 使用 AWS Config 持續評估、監控和記錄資源組態變更。
建立程序：
- 制定一個程序來評估哪些事件重要並需要監控。這涉及設定正常和異常活動的閾值和參數。
- 確定將事件升級為事故的條件。這可以基於嚴重性、對使用者的影響或與預期行為的偏差。
- 定期檢閱事件監控和回應程序。這包括分析過去的事件、調整閾值以及完善警示機制。

事故

回應事故：
- 使用可觀測性工具的洞察力，快速識別並回應事故。
- 實作 AWS Systems Manager Ops Center 以彙總、組織營運項目和事故，並排定優先順序。
- 使用 Amazon CloudWatch 和等服務AWS X-Ray進行更深入的分析和疑難排解。
- 考慮 AWS Managed Services （AMS）以增強事件管理，並利用其主動、預防性和偵測功能。AMS 透過監控、事件偵測和回應以及安全管理等服務擴展營運支援。
- Enterprise Support 客戶可利用 AWS 事件偵測與回應功能，為生產工作負載提供持續的主動監控和事件管理。
建立事件管理程序：
- 建立結構化的事件管理流程，包括清晰的角色、通訊協定和解決步驟。
- 將事件管理與諸如 AWS Chatbot 等工具整合，以實現有效率的回應和協調。
- 依嚴重性將事件分類，並針對每個類別預先定義事件回應計畫。
學習和改進：
- 進行事件後分析以了解根本原因和解決方案有效性。
- 根據審查和不斷發展的實務，持續更新和改進回應計畫。
- 記錄並分享跨團隊所學到的經驗教訓，以增強營運彈性。
- Enterprise Support 客戶可向其技術客戶經理請求參加事件管理研討會。這個指導性研討會可測試您現有的事件回應計畫，並協助您找出需要改進的領域。

問題

識別問題：
- 使用先前事件的資料來識別可能指出更深層次系統性問題的週期性模式。
- 利用 AWS CloudTrail和 Amazon CloudWatch 等工具來分析趨勢並發現潛在問題。
- 與包括營運、開發和業務單位在內的跨職能團隊合作，以獲得有關根本原因的不同觀點。
建立問題管理程序：
- 制定問題管理的結構化程序，專注於長期解決方案，而不是快速修復。
- 結合根本原因分析（RCA）技術，以調查和了解事件的根本原因。
- 根據調查結果更新營運政策、程序和基礎設施，以防止重複發生。
持續改善：
- 培養不斷學習和改進的文化，鼓勵團隊積極識別和解決潛在問題。
- 定期審查和修訂問題管理程序和工具，以配合不斷發展的業務和技術環境。
- 在整個組織中分享見解和最佳實務，以建立更具彈性且更有效率的營運環境。
使用 AWS Support：
- 使用 AWS 支援資源，例如 AWS Trusted Advisor，以取得主動指引和最佳化建議。
- Enterprise Support 客戶可以在重大事件期間存取 AWS Countdown 等專業計畫以取得支援。

實作計劃的工作量：中

相關的最佳實務：

相關文件：

相關影片：

相關範例：

相關服務：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

回應事件

OPS10-BP02 每個提醒都有一個程序