什麼是 AWS Systems Manager Incident Manager? - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS Systems Manager Incident Manager?

事件管理員是一項功能AWS Systems Manager,可協助您減輕影響託管應用程式的件,並從中復原AWS。

在的背景下AWS,事件是任何意外中斷或服務質量降低,可能會對業務運營產生重大影響。因此,對於組織而言,建立回應策略以有效減輕事件並從事件中復原,並實作防止 future 發生事件的動作至關重要。

事件管理員透過下列方式協助縮短解決事件的時間:

  • 提供自動化計劃,以有效地吸引負責響應事件的人員。

  • 提供相關疑難排解資料。

  • 使用預先定義的自動化手冊啟用自動回應動作。

  • 提供與所有利益相關者合作和溝通的方法。

事件管理員內建的功能和工作流程是以事件回應的最佳實務為基礎,Amazon 自成立以來幾乎一直在開發這些事件回應。事件管理器AWS 服務與 Amazon CloudWatchAWS CloudTrail,AWS Systems Manager和 Amazon 等集成 EventBridge。

主要元件和功能

本節說明事件管理員中用來設定事件回應計劃的功能。

回應計劃

回應計劃可做為範本,定義事件發生時必須到位的項目。它包括以下信息:

  • 發生事件時需要誰做出回應。

  • 已建立的自動化回應,以減輕事件。

  • 回應者必須使用的協同作業工具來溝通及接收有關事件的自動通知。

事件偵測

您可以設定 Amazon CloudWatch 警示和 Amazon EventBridge 事件,以在偵測到影響AWS資源的條件或變更時建立事件。

手冊自動化支持

您可以從事件管理員內部啟動自動化工作流程手冊,以自動化您對事件的重要回應,並向第一線應變人員提供詳細步驟。

參與和升級

參與計劃指定每個人都要通知每個獨特的事件。您可以指定已新增至「事件管理員」的個別連絡人,或指定在「事件管理員」中建立的隨叫排程。參與計劃還指定了升級途徑,以幫助確保利益相關者之間的可見性和在事件響應過程中積極參與。

待命時間表

「事件管理員」中的隨叫排程包含您為排程建立的一或多個旋轉。對於每個旋轉,您最多可以包含 30 個接觸。當新增至升級計劃或回應計劃時,隨時待命排程會定義在發生需要回應者介入的事件發生時,誰會收到通知。隨時待命排程有助於確保您在事件回應所需時獲得全天候、備援的全天候保障。

積極協作

事件應變人員透過與AWS Chatbot客戶整合,積極回應事件。 AWS Chatbot支援為使用Slack、Microsoft Teams或 Amazon Chime 的事件管理員建立聊天管道。回應者可以直接彼此通訊、接收有關事件的自動通知,以Slack及Microsoft Teams直接執行某些事件管理員命令列介面 (CLI) 作業。

事故診斷

回應者可在事件發生期間,在「事件管理員」主控台中檢視 up-to-date 資訊。根據資訊中的變更,回應者接著可以建立後續項目,並使用自動化工作流程手冊來修復這些項目。

其他服務的發現

若要支援回應事件診斷,您可以啟用「事件管理員」中的「發現項目」功能。發現項目是關於發生事件時發生的AWS CodeDeploy部署和AWS CloudFormation堆疊更新,以及涉及可能與事件相關的一或多個資源的相關資訊。擁有此資訊可減少評估潛在原因所需的時間,從而縮短事件復原 (MTTR) 的平均時間。

事件後分析

事件解決後,您可以使用事件後分析來識別事件回應的改善情況,包括偵測和緩解時間。分析還可以幫助您了解事件的根本原因。事件管理員會建立建議的後續行動項目,讓您用來改善事件回應。

使用事件管理器的好處

瞭解在事件偵測和回應作業中使用事件管理員的好處。

本節說明您的組織在實作「事件管理員」回應計劃時可獲得的優勢。

立即有效率地診斷問題

當您的服務 EventBridge 發生任何意外中斷或降低時,您設定的 Amazon CloudWatch 警示和 Amazon 事件可以自動建立事件。

CloudWatch 警示會偵測並報告量度或運算式的值在數個期間內相對於臨界值的變更時。 EventBridge 事件是由於您在 EventBridge 規則中指定的環境、應用程式或服務發生變更而建立的。當您建立警示或事件時,您可以針對要在事件管理員中建立的事件指定動作,並指定適當的回應計劃,以促進事件的參與、升級和緩解。

事件管理員提供了通過使用指標自動收集和跟踪與事件相關的 CloudWatch 指標的能力。除了透過 CloudWatch 警示建立事件時為事件產生的自動化指標之外,您還可以即時手動新增指標,為事件中的回應者提供額外的內容和資料。

使用「事件管理員」事件時間表,依時間順序顯示興趣點。回應者也可以使用時間軸來新增自訂事件,以說明他們所做的事或發生了什麼事。自動化興趣點包括:

  • CloudWatch 警示或 EventBridge 規則會建立事件。

  • 事件指標會報告給事件管理員。

  • 響應者正在參與。

  • 手冊步驟已成功完成。

有效地參與

事件管理器通過使用聯繫人,隨時調度,升級計劃和聊天渠道將事件響應人員聚集在一起。您可以直接在事件管理員中定義個別聯絡人,並指定聯絡人喜好設定(電子郵件、簡訊或語音)。您可以將聯絡人新增至隨叫的排程輪換,以決定在指定期間內處理事件的人員。使用您定義的聯繫人和隨時待命的時間表,您可以創建升級計劃,以在事件發生期間在正確的時間吸引必要的響應者。

即時協同合作

事件期間的溝通是更快解決問題的關鍵。使用設定為使用Slack、Microsoft Teams或 Amazon Chime 的用AWS Chatbot戶端,您可以在他們偏好的連線聊天頻道中將回應者聚集在一起,讓他們直接與事件互動。事件管理員還可以在聊天頻道中顯示事件響應人員的實時操作,為其他人提供背景信息。

自動化服務恢復

事件管理員可讓您的回應人員透過使用自化手冊,專注於解決事件所需的關鍵工作。在事件管理員中,Runbook 是為了解決事件而採取的一系列預先定義的動作。它們將自動化工作的強大功能與必要時的手動步驟相結合,讓回應者更容易分析和回應影響。

預防 future 的事件

使用事件管理員事件後分析,您的團隊可以制定更健全的回應計劃,並在整個應用程式中影響變更,以防止 future 的事件和停機時間 事件後分析還提供了迭代學習和改進手冊,響應計劃和指標。

事件管理員與其他AWS 服務多種第三方服務和工具整合,可協助您偵測並解決事件,並間接與 API 作業互動,以及管理基礎架構。如需相關資訊,請參閱 與事件管理器的產品和服務整合

存取事件管理員

您可以使用下列任何一種方式存取「事件管理員」:

事件管理員區域和配額

系統管理員並不支AWS 區域援所有事件 Systems Manager。

若要檢視事件管理員區域和配額的相AWS Systems Manager Incident Manager關資訊,請參閱 Amazon Web Services 一般參考.

事件管理員的定價

使用事件管理員需要支付費用。如需詳細資訊,請參閱 AWSSystems Manager 定價

注意

與本服務相關的其他AWS 服務、AWS內容和第三方內容可能需另外收費,並受其他條款約束。

如需協助您最佳化AWS環境成本、安全性和效能的服務概觀,請參閱《AWS Support使用者指南》AWS Trusted Advisor中的。Trusted Advisor