在事件管理員中使用回應計劃 - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在事件管理員中使用回應計劃

回應計劃可讓您規劃如何回應影響使用者的事件。回應計畫的運作方式為範本,其中包含有關參與者、事件的預期嚴重性、要啟動的自動執行手冊,以及要監視的指標等資訊。

最佳實務

當您提前規劃事件時,可以減少對團隊事件的影響。當您設計回應計劃時,團隊應該考慮下列最佳作法。

  • 簡化參與 — 找出最適合事件的團隊。如果您參與的分配名單太廣,或者您與錯誤的團隊合作,則可能會在事件期間引起混亂並浪費響應者時間。

  • 可靠的升級 — 對於您在響應計劃中的參與,我們建議您選擇參與計劃而不是聯繫人或隨時待命的時間表。接合計劃應指定事件期間要互動的個別接觸或待命明細表 (其中包含多個旋轉接點)。由於參與計劃中指定的回應者有時無法連線,因此您應該在回應計劃中設定備份回應者,以涵蓋這些案例。使用備用聯絡人時,如果主要和次要連絡人無法使用,或者在涵蓋範圍內存在其他計劃之外的漏洞,事件管理員仍會通知聯絡人有關事件的聯絡人。

  • Runbook — 使用 Runbook 提供可重複、易於理解的步驟,以減輕回應者在事件期間體驗的 stress。

  • 協同合作 — 使用聊天管道簡化事件期間的溝通。聊天頻道可協助回應者掌握最新資訊。他們還可以通過這些渠道與其他響應者共享信息。

建立回應計劃

使用下列程序來建立回應計劃並自動化事件回應。

若要建立回應計劃
  1. 開啟「事件管理員」主控台,然後在導覽窗格中選擇「回應計劃」。

  2. 選擇 [建立回應計劃]。

  3. 名稱中,輸入要在回應計劃的 Amazon 資源名稱 (ARN) 中使用的唯一且可識別的回應計劃名稱。

  4. (選擇性) 在「顯示名稱」中,輸入更易於閱讀的名稱,以便在建立事件時識別回應計劃。

  5. 請指定未預期事件記錄的預設值來繼續。

指定事件預設值

若要協助您更有效地管理事件,您可以指定預設值。「事件管理員」會將這些值套用至與回應計劃相關聯的所有事件。

指定未預期事件預設值
  1. 在「標題」中,輸入此事件的標題,以協助您在「事件管理員」首頁識別該事件。

  2. 針對「影響」,請選擇影響等級,以指出從此回應計劃建立之未預期事件的潛在範圍,例如「嚴重」或「」。如需事件管理員中影響等級的相關資訊,請參閱分類

  3. (選擇性) 在「摘要」中,輸入從此回應計劃建立之未預期事件類型的簡短摘要。

  4. (選擇性) 在「刪除重複資料」字串中,輸入去除重複資料字串。事件管理員使用此字串來防止相同的根本原因在相同帳戶中建立多個事件。

    重複資料刪除字串是系統用來檢查重複事件的術語或片語。如果您指定重複資料刪除字串,「事件管理員」會在建立事件時,搜尋dedupeString欄位中包含相同字串的未決事件。如果偵測到重複的事件,「事件管理員」會將較新的事件刪除到現有的事件中。

    注意

    預設情況下,事件管理員會自動刪除由相同 Amazon CloudWatch 警示或 Amazon 事件所建立的多個 EventBridge 事件重複資料。您不需要輸入自己的重複資料刪除字串,即可防止這些資源類型重複。

  5. (選擇性) 在「事件標記」下,新增標籤索引鍵和值,以指派給從此回應計劃建立的事件。

    您必須擁有事件記錄資源的TagResource權限,才能在回應計劃中設定事件標記。

  6. 繼續指定一個選擇性的聊天頻道,讓解析器彼此溝通有關事件。

(選擇性) 指定事件回應聊天通道

當您在回應計劃中加入聊天頻道時,回應者會透過該管道收到事件更新。他們可以通過使用聊天命令直接從聊天頻道與事件進行交互。

使用時AWS Chatbot,您可以建立 Slack 或 Amazon Chime 的管道,以便在您的回應計劃中使用。如需有關在中建立聊天頻道的資訊AWS Chatbot,請參閱《AWS Chatbot管理員指南》

重要

事件管理員必須擁有發佈至聊天頻道 Amazon Simple Notification Service (Amazon SNS) 主題的許可。如果沒有發佈至該 SNS 主題的權限,您就無法將其新增至回應計劃。事件管理員會將測試通知發佈至 SNS 主題以驗證權限。

如需聊天頻道的詳細資訊,請參閱在事件管理員中使用聊天頻道

若要指定事件回應聊天頻道
  1. 對於聊天頻道,請選取回應者可在事件期間通訊的AWS Chatbot聊天頻道。

    提示

    要在中創建新的聊天頻道AWS Chatbot,請選擇配置新的 Chatbot 客戶端

  2. 對於聊天頻道 SNS 主題,請選擇事件期間要發佈的其他 SNS 主題。如果某個區域在事件發生時關閉,則新AWS 區域增多個 SNS 主題可增加冗餘性。

  3. 繼續選取事件期間要參與的聯絡人、待命排程和升級計畫

(選擇性) 選取參與事件回應的資源

當事件發生時,確定最合適的響應者是非常重要的。最佳作法是建議您執行下列動作:

  1. 將聯絡人和待命排程新增為升級計畫中的上報管道。

  2. 選擇升級計劃作為回應計劃的參與。

有關聯系人和升級計劃的更多內容,敬請參閱在事件管理員中使用連絡人在事件管理員中使用升級計劃

選擇參與事件回應的資源
  1. 對於「參與」,請選擇任意數量的升級計劃、待命排程和個別連絡人。

  2. 選擇性地指定要作為事件緩和措施的一部分執行的 runbook 來繼續。

(選擇性) 指定事件緩和措施的 Runbook

您可以使用 AWS Systems ManagerAutomation 的 AWS Systems Manager Runbook (一種功能) 來自動化AWS 雲端環境中的常見應用程式和基礎結構工作。

每個手冊定義一個手冊工作流程。runbook 工作流程包括系統管理員在受管理的節點或其他AWS資源類型上執行的動作。在事件管理器中,Runbook 驅動事件響應和緩解措施。

如需有關在回應計畫中使用 Runbook 的詳細資訊,在事件管理員中使用系統管理員自動化手冊請參閱.

若要指定事件緩和措施的 Runbook:

  1. 對於 Runbook,請執行下列其中一項作業:

    • 從範本選擇複製 runbook,以製作預設事件管理員工作流程簿的副本。對於 Runbook 名稱,輸入新工作流程簿的描述性名稱。

    • 選擇選擇現有的手冊。選取要使用的「擁有者」、「工作手冊」和「版本」。

      提示

      若要從頭開始建立 Runbook,請選擇 [設定新的 Runbook]。

      如需建立 Runbook 的資訊,請參閱 在事件管理員中使用系統管理員自動化手冊

  2. 在「參數」區域中,為您選取的工作簿提供要求的任何參數。

    可用的參數是由 runbook 指定的參數。一個 runbook 可能需要不同於另一個參數。某些參數可能是必需的,其他參數是可選的

    在許多情況下,您可以選擇手動輸入參數的靜態值,例如 Amazon EC2 執行個體 ID 清單。您也可以讓事件管理員提供事件動態產生的參數值。

  3. (選擇性) 對於 AutomationAssumeRole,指定要使用的 AWS Identity and Access Management (IAM) 角色。此角色必須具有執行 runbook 中指定的個別命令所需的權限。

    注意

    如果未指AssumeRole定,事件管理員會嘗試使用 Runbook 服務角色來執行 runbook 中指定的個別命令。

    請選擇下列項目:

    • 輸入 ARN 值 — 以格式手動輸入的 Amazon 資源名稱 (ARN)。 AssumeRole arn:aws:iam::account-id:role/assume-role-name例如 arn:aws:iam::123456789012:role/MyAssumeRole

    • 使用現有服務角色 — 從帳戶中的現有角色清單中選擇具有所需權限的角色。

    • 建立新的服務角色 — 從AWS受管理的策略中選擇要附加到您的 AssumeRole. 選取此選項之後,對於AWS受管理的策略,請從清單中選擇一或多個策略。

      您可以接受新角色的建議預設名稱,或輸入您選擇的名稱。

      注意

      這個新的 Runbook 服務角色與您選取的特定 Runbook 相關聯。它不能與不同的手冊一起使用。這是因為原則的 [資源] 區段將不支援其他 Runbook。

  4. 對於 Runbook 服務角色,請指定要使用的 IAM 角色,以提供存取和啟動 Runbook 本身工作流程所需的許可。

    至少,角色必須允許針對您的特定 runbook 執ssm:StartAutomationExecution行動作。若要讓 runbook 跨帳戶工作,角色也必須允許您在期間事件管理員中的跨區域和跨帳戶事件管理建立的AWS-SystemsManager-AutomationExecutionRole角色執sts:AssumeRole行動作。

    請選擇下列項目:

    • 建立新的服務角色 — 事件管理員會為您建立 Runbook 服務角色,其中包含啟動 runbook 工作流程所需的最低權限。

      對於角色名稱,您可以接受建議的預設名稱,或輸入您選擇的名稱。我們建議使用建議的名稱或保持在名稱中的 runbook 的名稱。這是因為新 AssumeRole 功能與您選取的特定 runbook 相關聯,而且可能不包含其他 Runbook 所需的權限。

    • 使用現有的服務角色 — 您或事件管理員先前建立的 IAM 角色會授予所需的權限。

      對於角色名稱,請選取要使用的現有角色名稱。

  5. 展開其他選項,然後選擇下列其中一項,以指定 runbook 工作流程應執行的AWS 帳戶位置。

    • 響應計劃所有者的帳戶 — 啟動在創建它的 AWS 帳戶 runbook 工作流.

    • 受影響的帳戶 — 在開始或報告事件的帳戶中啟動 runbook 工作流程。

      當您針對跨帳戶案例使用事件管理員,且 runbook 需要存取受影響帳戶中的資源以進行修復時,請選擇 [受影響的帳戶]。

  6. 選擇性地將 PagerDuty 服務整合至回應計劃,以繼續進行。

(選擇性) 將 PagerDuty 服務整合至回應計劃

若要將 PagerDuty 服務整合至回應計劃

當您將事件管理員與整合時 PagerDuty,每當事件管理員 PagerDuty 建立事件時,都會建立對應的事件。中的事件 PagerDuty 會使用您在此處定義的呼叫工作流程和呈報原則,以及「事件管理員」中所定義的原則。 PagerDuty 附加事件管理員的時間表事件作為事件的附註。

  1. 展開第三方整合,然後選擇啟用 PagerDuty 整合核取方塊。

  2. [選取密碼] 中,選取您AWS Secrets Manager儲存認證的密碼以存取您的 PagerDuty 帳戶。

    如需將 PagerDuty 認證儲存在 Secret Secrets Manager 碼中的相關資訊,請參閱在 AWS Secrets Manager 密碼中儲 PagerDuty 存存取認證

  3. 如果是PagerDuty 服務,請從您要建立 PagerDuty 事件的 PagerDuty 帳戶中選取服務。

  4. 繼續新增選擇性標籤並建立回應計劃

新增標籤並建立回應計劃

若要新增標籤並建立回應計劃
  1. (選擇性) 在「標」區域中,將一或多個標籤索引鍵名稱/值配對套用至回應計劃。

    標籤是您指派給資源的選用性中繼資料。使用標籤,您可以使用不同的方式對資源進行分類,例如依目的、擁有者或環境。例如,您可能想要標記回應計劃,以識別要緩解的事件類型、其包含的呈報通道類型,或將與之相關聯的升級計畫。如需標記事件管理員資源的詳細資訊,請參閱標記事件管理員中的資源

  2. 選擇 [建立回應計劃]。