什麼是AWS事件偵測和回應? - AWS 事件偵測和回應使用者指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是AWS事件偵測和回應?

AWS 事件偵測和回應提供符合資格的 AWS Enterprise Support 客戶主動的事件參與,以減少故障的可能性,並加速關鍵工作負載從中斷中復原。事件偵測和回應可促進您與 的合作 AWS ,以開發針對每個已加入工作負載自訂的 Runbook 和回應計劃。

事件偵測和回應提供下列主要功能:

  • 改善可觀測性: AWS 專家提供指引,協助您定義工作負載的應用程式和基礎設施層之間的指標和警示,並建立關聯,以提早偵測中斷。

  • 5 分鐘的回應時間:事件管理工程師 (IMEs) 會全年無休監控您加入的工作負載,以偵測關鍵事件。會在警示觸發後 5 分鐘內IMEs回應,或回應您引發事件偵測和回應的業務關鍵支援案例。

  • 更快的解決方法:IMEs使用為您的工作負載開發的預先定義和自訂 Runbook,在 5 分鐘內回應、代表您建立支援案例,以及管理工作負載上的事件。 為事件IMEs提供單執行緒所有權,並讓您與適當的 AWS 專家保持互動,直到事件解決為止。

  • AWS 事件的事件管理:因為我們了解關鍵工作負載 (例如帳戶、服務和執行個體) 的內容,因此可以在 AWS 服務事件期間偵測並主動通知您工作負載的潛在影響。若有要求,請在 AWS 服務事件期間與您IMEs互動,並提供事件的更新。雖然事件偵測和回應無法在服務事件期間排定復原的優先順序,但事件偵測和回應確實提供支援指導,協助您實作緩解計畫。

  • 降低失敗的可能性:解決後, IMEs 會為您提供事後審核 (應請求)。此外, AWS 專家會與您合作,應用所學到的經驗來改善事件回應計劃和 Runbook。您也可以利用 AWS Resilience Hub 在您的工作負載上持續追蹤彈性。