什麼是 AWS Systems Manager Incident Manager? - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS Systems Manager Incident Manager?

Incident Manager 是 中的工具 AWS Systems Manager,旨在協助您減輕並復原影響託管應用程式的事件 AWS。

就 而言 AWS,事件是指任何非預期的中斷或服務品質降低,可能會對業務營運產生重大影響。因此,組織必須建立回應策略,以有效地緩解和復原事件,並實作動作來防止未來的事件。

Incident Manager 有助於縮短解決事件的時間,方法如下:

  • 提供自動化計劃,以有效率地吸引負責回應事件的人員。

  • 提供相關的故障診斷資料。

  • 使用預先定義的 Automation Runbook 啟用自動回應動作。

  • 提供與所有利益相關者協作和溝通的方法。

內建於 Incident Manager 的功能和工作流程,是以 Amazon 自成立以來幾乎一直在開發的事件回應最佳實務為基礎。Incident Manager 與 整合, AWS 服務 例如 Amazon CloudWatch AWS CloudTrail AWS Systems Manager、 和 Amazon EventBridge。

主要元件和功能

本節說明您用來設定事件回應計劃的 Incident Manager 功能。

回應計劃

回應計畫可做為範本,定義事件發生時必須到位的項目。它包含以下資訊:

  • 事件發生時,需要回應的人員。

  • 建立的自動化回應,以緩解事件。

  • 回應者必須使用的協作工具來通訊和接收有關事件的自動通知。

事件偵測

您可以設定 Amazon CloudWatch 警示和 Amazon EventBridge 事件,在偵測到影響 AWS 資源的條件或變更時建立事件。

Runbook 自動化支援

您可以從 Incident Manager 內啟動 Automation Runbook,以自動化對事件的關鍵回應,並提供詳細步驟給第一個回應者。

參與和呈報

參與計畫會指定每個人針對每個唯一事件通知 。您可以指定已新增至 Incident Manager 的個別聯絡人,或指定您在 Incident Manager 中建立的待命排程。參與計劃也會指定呈報路徑,以協助確保利益相關者之間的可見性,以及在事件回應過程中主動參與。

待命排程

Incident Manager 中的待命排程包含您為排程建立的一或多個輪換。每次輪換時,您最多可以包含 30 個聯絡人。新增至呈報計劃或回應計劃時,隨需排程會定義發生需要回應者介入的事件時,通知的人員。隨需排程有助於確保事件回應所需的完整備援全年無休涵蓋範圍。

主動協同合作

事件回應者透過與聊天應用程式用戶端中的 Amazon Q 開發人員整合主動回應事件。聊天應用程式中的 Amazon Q Developer 支援為使用 Slack、 Microsoft Teams或 Amazon Chime 的 Incident Manager 建立聊天頻道。回應者可以直接彼此通訊、接收有關事件的自動通知,以及Microsoft Teams直接在 Slack和 中執行一些 Incident Manager 命令列界面 (CLI) 操作。

事件診斷

在事件發生期間,回應者可以在 Incident Manager 主控台中檢視up-to-date。根據資訊中的變更,回應者接著可以建立後續項目,並使用 Automation Runbook 進行修復。

來自其他服務的調查結果

若要支援回應者的事件診斷,您可以在 Incident Manager 中啟用調查結果功能。調查結果是有關在事件發生前後發生的 AWS CodeDeploy 部署和 AWS CloudFormation 堆疊更新,以及可能涉及與事件相關的一或多個資源的資訊。擁有此資訊可縮短評估潛在原因所需的時間,進而減少從事件復原的平均時間 (MTTR)。

事後分析

事件解決後,您可以使用事件後分析來識別事件回應的改進,包括偵測和緩解的時間。分析也可以協助您了解事件的根本原因。Incident Manager 會建立建議的後續動作項目,供您用來改善事件回應。

使用 Incident Manager 的優點

了解在事件偵測和回應操作中使用 Incident Manager 的好處。

本節說明您的組織在實作 Incident Manager 回應計劃時可以獲得的優勢。

有效且立即地診斷問題

您設定的 Amazon CloudWatch 警示和 Amazon EventBridge 事件,可在您的服務品質發生任何意外中斷或降低時自動建立事件。

CloudWatch 警示會偵測並報告指標或表達式的值在多個期間內相對於閾值的變更。EventBridge 事件是由於您在 EventBridge 規則中指定的環境、應用程式或服務發生變更而建立。當您建立警示或事件時,您可以指定要在 Incident Manager 中建立事件的動作,以及適當的回應計劃,以促進事件的參與、升級和緩解。

Incident Manager 可讓您透過使用 CloudWatch 指標,自動收集和追蹤與事件相關的指標。除了透過 CloudWatch 警示建立事件時為事件產生的自動化指標之外,您還可以即時手動新增指標,以為事件中的回應者提供額外的內容和資料。

使用 Incident Manager 事件時間表,依時間順序顯示興趣點。回應者也可以使用時間軸來新增自訂事件,以描述他們做了什麼或發生了什麼。自動化的興趣點包括:

  • CloudWatch 警示或 EventBridge 規則會建立事件。

  • 事件指標會報告給 Incident Manager。

  • 回應者已參與。

  • Runbook 步驟已成功完成。

有效參與

Incident Manager 透過使用聯絡人、待命排程、升級計畫和聊天管道,將事件回應者集合在一起。您可以直接在 Incident Manager 中定義個別聯絡人,並指定聯絡偏好設定 (電子郵件、簡訊或語音)。您可以將聯絡人新增至通話中排程輪換,以判斷在特定期間內處理事件的參與對象。使用定義的聯絡人和通話中排程,您可以建立升級計劃,以在事件發生期間適時與必要的回應者互動。

即時協作

事件期間的通訊是更快解決的關鍵。在聊天應用程式中使用 Amazon Q 開發人員 用戶端設定使用 Slack、 Microsoft Teams或 Amazon Chime,您可以在他們偏好的連線聊天頻道中將回應者集合在一起,讓他們直接與事件互動,並彼此互動。Incident Manager 也會在聊天頻道中顯示事件回應者的即時動作,為其他人提供內容。

自動化服務還原

Incident Manager 可讓您的回應者專注於透過使用 Automation Runbook 解決事件所需的關鍵任務。在 Incident Manager 中,執行手冊是為解決事件而採取的一系列預先定義動作。它們會視需要結合自動化任務的強大功能與手動步驟,讓回應者更易於分析和回應影響。

防止未來的事件

使用 Incident Manager 事件後分析,您的團隊可以開發更強大的回應計劃,並影響應用程式之間的變更,以防止未來的事件和停機時間。事件後分析也提供反覆學習和改善 Runbook、回應計劃和指標。

Incident Manager 與數個其他 AWS 服務 和第三方服務和工具整合,以協助您偵測和解決事件,以及間接與其 API 操作互動和管理基礎設施。如需相關資訊,請參閱 與 Incident Manager 的產品和服務整合

存取 Incident Manager

您可以透過下列任何方式存取 Incident Manager:

Incident Manager 區域和配額

Systems Manager 不支援所有 AWS 區域 支援的 Incident Manager。

若要檢視有關 Incident Manager 區域和配額的資訊,請參閱 中的AWS Systems Manager Incident Manager 端點和配額Amazon Web Services 一般參考

Incident Manager 的定價

使用 Incident Manager 需要付費。如需詳細資訊,請參閱 AWS Systems Manager 定價

注意

與此服務相關的其他 AWS 服務、 AWS 內容和第三方內容可能需另外付費,並受其他條款的約束。

如需 的概觀 Trusted Advisor,此服務可協助您最佳化 AWS 環境的成本、安全性和效能,請參閱 AWS 支援 使用者指南AWS Trusted Advisor中的 。