在 Incident Manager 中建立和設定回應計劃 - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Incident Manager 中建立和設定回應計劃

回應計劃可讓您規劃如何回應影響使用者的事件。回應計劃可作為範本,其中包含有關要與誰互動、事件預期嚴重性、要啟動的自動 Runbook 以及要監控的指標等資訊。

最佳實務

當您提前規劃事件時,可以減少對團隊事件的影響。當您設計回應計畫時,團隊應考慮下列最佳實務。

  • 簡化參與 – 識別最適合事件的團隊。如果您參與的分發清單太寬,或參與錯誤的團隊,可能會導致混淆,並在事件期間浪費回應者時間。

  • 可靠的升級 – 對於您在回應計劃中的參與,我們建議您選擇參與計劃,而不是聯絡人或通話排程。參與計畫應指定要在事件期間參與的個別聯絡人或通話排程 (包含多個輪換聯絡人)。由於您的參與計畫中指定的回應者有時可能無法連線,因此您應該在回應計畫中設定備份回應者,以涵蓋這些案例。使用備份聯絡人時,如果主要和次要聯絡人無法使用,或涵蓋範圍有其他未規劃的差距,則 Incident Manager 仍會通知聯絡人有關事件的事宜。

  • Runbooks – 使用 Runbooks 提供可重複且可理解的步驟,以減少回應者在事件期間遇到的壓力。

  • 協作 – 使用聊天管道簡化事件期間的通訊。聊天管道可協助回應者掌握最新資訊。他們也可以透過這些管道與其他回應者共用資訊。

建立回應計畫

使用下列程序來建立回應計劃並自動執行事件回應。

建立回應計畫
  1. 開啟 Incident Manager 主控台 ,然後在導覽窗格中,選擇回應計劃

  2. 選擇建立回應計畫

  3. 對於名稱 ,輸入唯一且可識別的回應計劃名稱,用於回應計劃的 Amazon Resource Name (ARN)。

  4. (選用) 對於顯示名稱 ,輸入更人性化的可讀名稱,以協助在建立事件時識別回應計劃。

  5. 繼續為事件記錄 指定預設值

指定事件預設值

為了協助您更有效地管理事件,您可以指定預設值。Incident Manager 會將這些值套用至與回應計劃相關聯的所有事件。

指定事件預設值
  1. 標題 中,輸入此事件的標題,以協助您在事件管理員首頁上識別它。

  2. 針對影響 ,選擇影響層級來指出從此回應計劃建立之事件的潛在範圍,例如重大。如需 Incident Manager 中影響評分的資訊,請參閱 分類

  3. (選用) 針對摘要 ,輸入從此回應計劃建立的事件類型摘要。

  4. (選用) 針對 Dedupe 字串 ,輸入 dedupe 字串。Incident Manager 使用此字串來防止相同的根本原因在同一個帳戶中建立多個事件。

    重複資料刪除字串是系統用來檢查重複事件的詞彙或片語。如果您指定重複資料刪除字串,則 Incident Manager 會在建立事件dedupeString時,搜尋欄位中包含相同字串的開啟事件。如果偵測到重複項目,Acident Manager 會將較新的事件重複刪除到現有事件中。

    注意

    依預設,Inventation Manager 會自動刪除相同 Amazon CloudWatch 警示或 Amazon 事件建立的多個 EventBridge 事件。您不需要輸入自己的重複資料刪除字串,以防止這些資源類型的重複。

  5. (選用) 在事件標籤 下,新增標籤索引鍵和值,以指派給從此回應計劃建立的事件。

    您必須擁有事件記錄資源的TagResource許可,才能在回應計劃中設定事件標籤。

  6. 繼續為解析程式指定可選的聊天頻道,以便彼此就事件進行通訊。

(選用) 指定事件回應聊天頻道

當您在回應計劃中包含聊天頻道時,回應者會透過頻道接收事件更新。他們可以使用聊天命令,直接從聊天頻道與事件互動。

使用 AWS Chatbot,您可以為 建立頻道 Slack,針對 Microsoft Teams,或讓 Amazon Chime 用於您的回應計劃。如需在 中建立聊天頻道的相關資訊 AWS Chatbot,請參閱AWS Chatbot 管理員指南

重要

Incident Manager 必須具有發佈至聊天頻道 Amazon Simple Notification Service (Amazon SNS) 主題的許可。如果沒有發佈到該SNS主題的許可,則無法將其新增至回應計劃。Incident Manager 會將測試通知發佈至SNS主題,以驗證許可。

如需聊天頻道的詳細資訊,請參閱 在 Incident Manager 中為回應者建立和整合聊天頻道

指定事件回應聊天頻道
  1. 針對聊天頻道 ,選取回應者可以在事件期間進行通訊的 AWS Chatbot 聊天頻道。

    提示

    若要在 中建立新的聊天頻道 AWS Chatbot,請選擇設定新的聊天機器人用戶端

  2. 針對聊天頻道SNS主題 ,選擇要在事件期間發佈的其他SNS主題。在多個 中新增SNS主題 AWS 區域 會增加備援,以防發生事件時區域關閉。

  3. 選取要在事件期間參與的聯絡人、通話中排程和升級計劃以繼續。

(選用) 選取要參與事件回應的資源

事件發生時,請務必識別最適當的回應者。最佳實務是,建議您執行下列動作:

  1. 在升級計畫中將聯絡人和通話中排程新增為升級管道。

  2. 選擇升級計畫作為回應計畫中的參與。

如需聯絡和升級計劃的詳細資訊,請參閱 在 Incident Manager 中建立和設定聯絡人在 Incident Manager 中建立回應者參與的升級計畫

選取要參與事件回應的資源
  1. 針對參與 ,選擇任何數量的升級計劃、待命排程和個別聯絡人。

  2. 繼續選擇性地指定 Runbook 作為事件緩解的一部分執行。

(選用) 指定 Runbook 進行事件緩解

您可以使用 AWS Systems Manager Automation 的 Runbook,這是 的功能 AWS Systems Manager,來自動化 AWS 雲端 環境中常見的應用程式和基礎設施任務。

每個 Runbook 都會定義 Runbook 工作流程 。Runbook 工作流程包含 Systems Manager 對受管節點或其他 AWS 資源類型執行的動作。在 Incident Manager 中, Runbook 會驅動事件回應和緩解。

如需在回應計劃中使用 Runbook 的詳細資訊,請參閱將 Systems Manager Automation Runbook 整合到 Incident Manager 中,以進行事件修復

若要指定事件緩解的 Runbook:

  1. 對於 Runbook ,執行下列其中一項操作:

  2. 參數區域中,提供您所選 Runbook 所需的任何參數。

    可用的參數是 Runbook 指定的參數。一個 Runbook 可能需要與另一個不同的參數。某些參數可能是必要的,而其他參數則是選用的。

    在許多情況下,您可以選擇手動輸入參數的靜態值,例如 Amazon EC2執行個體的清單IDs。您也可以讓 Incident Manager 提供事件動態產生的參數值。

  3. (選用) 針對 AutomationAssumeRole,指定要使用的 AWS Identity and Access Management (IAM) 角色。此角色必須具有執行 Runbook 中指定的個別命令所需的許可。

    注意

    如果未指定任何 AssumeRole ,則 Incident Manager 會嘗試使用 Runbook 服務角色來執行 Runbook 中指定的個別命令。

    請選擇下列項目:

    • 輸入ARN值 – AssumeRole以 格式手動輸入 的 Amazon Resource Name (ARN)arn:aws:iam::account-id:role/assume-role-name。例如:arn:aws:iam::123456789012:role/MyAssumeRole

    • 使用現有的服務角色 – 從帳戶中的現有角色清單中選擇具有所需許可的角色。

    • 建立新的服務角色 – 從 AWS 受管政策中選擇,以連接至您的 AssumeRole。選取此選項後,針對AWS 受管政策 ,請從清單中選擇一或多個政策。

      您可以接受新角色的建議預設名稱,或輸入您選擇的名稱。

      注意

      此新的 Runbook 服務角色與您選取的特定 Runbook 相關聯。它不能與不同的 Runbook 搭配使用。這是因為政策的資源區段不支援其他 Runbook。

  4. 對於 Runbook 服務角色 ,指定要用來提供存取和啟動 Runbook 本身工作流程所需的許可IAM的角色。

    角色至少必須允許特定 Runbook ssm:StartAutomationExecution的動作。若要讓 Runbook 跨帳戶運作,角色還必須允許您在 期間建立之AWS-SystemsManager-AutomationExecutionRole角色sts:AssumeRole的動作在 Incident Manager 中管理跨 AWS 帳戶 和 區域的事件

    請選擇下列項目:

    • 建立新的服務角色 – Incident Manager 會為您建立 Runbook 服務角色,其中包含啟動 Runbook 工作流程所需的最低許可。

      對於角色名稱 ,您可以接受建議的預設名稱,或輸入您選擇的名稱。建議您使用建議的名稱,或將 Runbook 的名稱保留在名稱中。這是因為新的 AssumeRole 與您選取的特定 Runbook 相關聯,且可能不會包含其他 Runbook 所需的許可。

    • 使用現有的服務角色 – 您或 Incident Manager 先前建立IAM的角色會授予所需的許可。

      針對角色名稱 ,選取要使用之現有角色的名稱。

  5. 展開其他選項,然後選擇下列其中一個選項,以指定 Runbook 工作流程應執行 AWS 帳戶 的位置。

    • 回應計劃擁有者的帳戶 – 在 AWS 帳戶 建立它的 中啟動 Runbook 工作流程。

    • 受影響的帳戶 – 在開始或報告事件的帳戶中啟動 Runbook 工作流程。

      當您將 Incident Manager 用於跨帳戶案例,且 Runbook 需要存取受影響帳戶中的資源來修復這些案例時,請選擇受影響的帳戶。

  6. 選擇性地將 PagerDuty 服務整合到回應計劃 中以繼續。

(選用) 將 PagerDuty 服務整合到回應計劃中

將 PagerDuty 服務整合到回應計劃中

當您將 Incident Manager 與 整合時 PagerDuty,只要 Incident Manager PagerDuty 建立事件, 就會建立對應的事件。中的事件 PagerDuty 會使用您在其中定義的分頁工作流程和升級政策,以及 Incident Manager 中的政策。 會將來自 Incident Manager 的時間表事件 PagerDuty 附加為事件的備註。

  1. 展開第三方整合 ,然後選擇啟用 PagerDuty 整合核取方塊。

  2. 針對選取秘密 ,選取您存放憑證以存取 PagerDuty 帳戶的秘密 AWS Secrets Manager 。

    如需在 Secrets Manager 秘密中儲存 PagerDuty 憑證的資訊,請參閱 將 PagerDuty 存取憑證存放在 AWS Secrets Manager 秘密中

  3. 對於PagerDuty 服務 ,請從您要建立 PagerDuty 事件 PagerDuty 的帳戶中選取服務。

  4. 繼續新增選用標籤並建立回應計畫

新增標籤並建立回應計劃

新增標籤並建立回應計劃
  1. (選用) 在標籤區域中,將一或多個標籤索引鍵名稱/值對套用至回應計劃。

    標籤是您指派給資源的選用性中繼資料。透過標籤,您可以用不同方式分類資源,例如依用途、擁有者或環境。例如,您可能想要標記回應計劃,以識別其要緩解的事件類型、其包含的升級管道類型,或將與其相關聯的升級計劃。如需標記 Incident Manager 資源的詳細資訊,請參閱 Incident Manager 中的標記資源

  2. 選擇建立回應計畫