為 Incident Manager 中的事件做準備 - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

為 Incident Manager 中的事件做準備

事件的規劃在事件生命週期之前很久就開始了。如下圖所示,在開始回應事件之前,您可以透過設定聊天頻道、建立升級計畫、指定聯絡人,以及決定要在事件回應中使用的 Automation Runbook 來做好準備。然後,使用回應計劃來指定監控的發生方式,以及回應是否自動化。修復完成後,您可以分析事件和事件回應,以進一步完善未來事件的回應計劃。

用於準備、回應和學習事件的 Incident Manager 工作流程。

監控

監控 AWS 託管應用程式的運作狀態是確保應用程式運作時間和效能的關鍵。判斷監控解決方案時,請考慮下列事項:

  • 功能重要性 – 如果系統故障,對下游使用者的影響有多重要。

  • 失敗的常見性 – 系統失敗的頻率;需要頻繁介入的系統應受到密切監控。

  • 延遲增加 – 完成任務的時間增加或減少了多少。

  • 用戶端與伺服器端指標 – 如果用戶端與伺服器上的相關指標之間存在差異。

  • 相依性失敗 – 您的團隊可以且應該準備的失敗。

建立回應計劃後,您可以使用監控解決方案,在事件發生時自動追蹤事件。如需事件追蹤和建立的詳細資訊,請參閱 在 Incident Manager 主控台中檢視事件詳細資訊

如需建構安全、高效能、彈性和高效率基礎設施應用程式和工作負載的詳細資訊,請參閱 AWS Well-Architected