Utilizzo dei piani di risposta in Incident Manager - Incident Manager

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo dei piani di risposta in Incident Manager

I piani di risposta consentono di pianificare come rispondere a un incidente che ha un impatto sugli utenti. Un piano di risposta funziona come un modello che include informazioni su chi coinvolgere, sulla gravità prevista dell'evento, sui runbook automatici da avviare e sulle metriche da monitorare.

Best practice

Puoi ridurre l'impatto degli incidenti sui tuoi team pianificando gli incidenti in anticipo. I team devono prendere in considerazione le seguenti best practice quando progettano un piano di risposta.

  • Interazione semplificata: identifica il team più appropriato per un incidente. Se ti rivolgi a una lista di distribuzione troppo ampia o se coinvolgi i team sbagliati, puoi creare confusione e far perdere tempo ai soccorritori durante un incidente.

  • Escalation affidabile: per le vostre interazioni in un piano di risposta, vi consigliamo di selezionare un piano di coinvolgimento anziché i contatti o gli orari di chiamata. Il piano di coinvolgimento dovrebbe specificare i singoli contatti o gli orari di chiamata (che contengono più contatti a rotazione) da coinvolgere durante gli incidenti. Poiché a volte i soccorritori specificati nel piano di coinvolgimento possono essere irraggiungibili, è necessario configurare i risponditori di riserva nel piano di risposta per coprire questi scenari. Con i contatti di backup, se i contatti primari e secondari non sono disponibili o se ci sono altre lacune di copertura non pianificate, Incident Manager notifica comunque l'incidente a un contatto.

  • Runbook: utilizza i runbook per fornire passaggi ripetibili e comprensibili che riducono lo stress che il soccorritore prova durante un incidente.

  • Collaborazione: utilizza i canali di chat per semplificare la comunicazione durante gli incidenti. I canali di chat aiutano i soccorritori a rimanere aggiornati sulle informazioni. Possono anche condividere informazioni con altri soccorritori tramite questi canali.

Creazione di un piano di risposta

Utilizzare la procedura seguente per creare un piano di risposta e automatizzare la risposta agli incidenti.

Per creare un piano di risposta
  1. Apri la console Incident Manager e, nel riquadro di navigazione, scegli Piani di risposta.

  2. Scegli Crea piano di risposta.

  3. Per Nome, inserisci un nome di piano di risposta univoco e identificabile da utilizzare nell'Amazon Resource Name (ARN) per il piano di risposta.

  4. (Facoltativo) In Nome visualizzato, inserisci un nome più leggibile dall'uomo per aiutare a identificare il piano di risposta quando crei incidenti.

  5. Continua specificando i valori predefiniti per i record degli incidenti.

Specificazione dei valori predefiniti degli incidenti

Per aiutarti a gestire gli incidenti in modo più efficace, puoi specificare valori predefiniti. Incident Manager applica questi valori a tutti gli incidenti associati a un piano di risposta.

Per specificare i valori predefiniti degli incidenti
  1. In Titolo, inserisci un titolo per questo incidente per aiutarti a identificarlo nella home page di Incident Manager.

  2. Per Impatto, scegli un livello di impatto per indicare la portata potenziale di un incidente creato da questo piano di risposta, ad esempio Critico o Basso. Per informazioni sulle valutazioni di impatto in Incident Manager, vedereTriage.

  3. (Facoltativo) In Riepilogo, inserisci un breve riepilogo del tipo di incidenti creati da questo piano di risposta.

  4. (Facoltativo) Per la stringa di deduplicazione, immettere una stringa di deduplicazione. Incident Manager utilizza questa stringa per impedire che la stessa causa principale crei più incidenti nello stesso account.

    Una stringa di deduplicazione è un termine o una frase che il sistema utilizza per verificare la presenza di incidenti duplicati. Se si specifica una stringa di deduplicazione, Incident Manager cerca gli incidenti aperti che contengono la stessa stringa nel campo al momento della creazione dell'incidente. dedupeString Se viene rilevato un duplicato, Incident Manager deduplica l'incidente più recente nell'incidente esistente.

    Nota

    Per impostazione predefinita, Incident Manager deduplica automaticamente più incidenti creati dallo stesso allarme Amazon CloudWatch o evento Amazon. EventBridge Non è necessario inserire la propria stringa di deduplicazione per impedire la duplicazione di questi tipi di risorse.

  5. (Facoltativo) In Tag degli incidenti, aggiungi le chiavi e i valori dei tag da assegnare agli incidenti creati da questo piano di risposta.

    È necessario disporre dell'TagResourceautorizzazione della risorsa di registrazione degli incidenti per impostare i tag degli incidenti all'interno del piano di risposta.

  6. Continua specificando un canale di chat opzionale per consentire ai risolutori di comunicare tra loro sugli incidenti.

(Facoltativo) Specificare un canale di chat per la risposta agli incidenti

Quando includi un canale di chat in un piano di risposta, i soccorritori ricevono aggiornamenti sugli incidenti tramite il canale. Possono interagire con l'incidente direttamente dal canale di chat utilizzando i comandi della chat.

UtilizzandoAWS Chatbot, puoi creare un canale per Slack o Amazon Chime da utilizzare nei tuoi piani di risposta. Per informazioni sulla creazione di un canale di chat inAWS Chatbot, consulta la AWS ChatbotGuida per l'amministratore.

Importante

Incident Manager deve disporre delle autorizzazioni per pubblicare sull'argomento Amazon Simple Notification Service (Amazon SNS) di un canale di chat. Senza le autorizzazioni per la pubblicazione su quell'argomento SNS, non puoi aggiungerlo al piano di risposta. Incident Manager pubblica una notifica di test sull'argomento SNS per verificare le autorizzazioni.

Per ulteriori informazioni sui canali di chat, consulta. Utilizzo dei canali di chat in Incident Manager

Per specificare un canale di chat per la risposta agli incidenti
  1. Per Canale di chat, seleziona un canale di AWS Chatbot chat in cui i soccorritori possano comunicare durante un incidente.

    Suggerimento

    Per creare un nuovo canale di chat inAWS Chatbot, scegli Configura nuovo client Chatbot.

  2. Per gli argomenti SNS del canale di chat, scegli altri argomenti SNS su cui pubblicare durante l'incidente. L'aggiunta di più argomenti SNS Regioni AWS aumenta la ridondanza nel caso in cui una regione non fosse disponibile al momento dell'incidente.

  3. Continua selezionando i contatti, gli orari delle chiamate e i piani di escalation da coinvolgere durante un incidente.

(Facoltativo) Seleziona le risorse per intervenire nella risposta agli incidenti

È importante identificare i soccorritori più appropriati quando si verifica un incidente. Come best practice, ti consigliamo di fare quanto segue:

  1. Aggiungi i contatti e gli orari delle chiamate come canali di escalation in un piano di escalation.

  2. Scegli un piano di escalation come coinvolgimento in un piano di risposta.

Per ulteriori informazioni sui contatti e sui piani di escalation, consulta e. Lavorare con i contatti in Incident Manager Utilizzo dei piani di escalation in Incident Manager

Per selezionare le risorse da impiegare nella risposta agli incidenti
  1. Per quanto riguarda gli interventi, scegli un numero qualsiasi di piani di intensificazione, orari di chiamata e contatti individuali.

  2. Continua specificando facoltativamente un runbook da eseguire come parte della mitigazione degli incidenti.

(Facoltativo) Specificare un runbook per la mitigazione degli incidenti

È possibile utilizzare i runbook di AWS Systems ManagerAutomation, una funzionalità diAWS Systems Manager, per automatizzare le attività comuni delle applicazioni e dell'infrastruttura nell'ambiente. Cloud AWS

Ogni runbook definisce un flusso di lavoro di runbook. Un workflow di runbook include le azioni che Systems Manager esegue sui nodi gestiti o su altri tipi di AWS risorse. In Incident Manager, un runbook favorisce la risposta e la mitigazione degli incidenti.

Per ulteriori informazioni sull'utilizzo dei runbook nei piani di risposta,. Utilizzo dei runbook di Systems Manager Automation in Incident Manager

Per specificare un runbook per la mitigazione degli incidenti:

  1. Per Runbook, effettuate una delle seguenti operazioni:

    • Scegli Clone runbook dal modello per creare una copia del runbook predefinito di Incident Manager. Per il nome del runbook, inserisci un nome descrittivo per il nuovo runbook.

    • Scegli Seleziona il runbook esistente. Seleziona il proprietario, il runbook e la versione da utilizzare.

      Suggerimento

      Per creare un runbook da zero, scegli Configura nuovo runbook.

      Per ulteriori informazioni sulla creazione di runbook, consulta Utilizzo dei runbook di Systems Manager Automation in Incident Manager.

  2. Nell'area Parametri, fornisci tutti i parametri richiesti per il runbook selezionato.

    I parametri disponibili sono quelli specificati dal runbook. Un runbook potrebbe richiedere parametri diversi da un altro. Alcuni parametri potrebbero essere obbligatori e altri facoltativi.

    In molti casi, puoi scegliere di inserire manualmente un valore statico per un parametro, ad esempio un elenco di ID di istanza Amazon EC2. Puoi anche lasciare che Incident Manager fornisca i valori dei parametri generati dinamicamente da un incidente.

  3. (Facoltativo) Per AutomationAssumeRole, specifica il ruolo AWS Identity and Access Management (IAM) da utilizzare. Questo ruolo deve disporre delle autorizzazioni necessarie per eseguire i singoli comandi specificati nel runbook.

    Nota

    Se non AssumeRole viene specificato no, Incident Manager tenta di utilizzare il ruolo del servizio Runbook per eseguire i singoli comandi specificati all'interno del runbook.

    Scegli tra le seguenti opzioni:

    • Inserisci il valore ARN: inserisci manualmente l'Amazon Resource Name (ARN) di un AssumeRole, nel formato. arn:aws:iam::account-id:role/assume-role-name Ad esempio, arn:aws:iam::123456789012:role/MyAssumeRole.

    • Usa il ruolo di servizio esistente: scegli un ruolo con le autorizzazioni richieste da un elenco di ruoli esistenti nel tuo account.

    • Crea un nuovo ruolo di servizio: scegli tra le politiche AWS gestite da allegare al tuo AssumeRole. Dopo aver selezionato questa opzione, per le politiche AWS gestite, scegli una o più politiche dall'elenco.

      Puoi accettare il nome predefinito suggerito per il nuovo ruolo o inserire un nome a tua scelta.

      Nota

      Questo nuovo ruolo del servizio Runbook è associato al runbook specifico selezionato. Non può essere utilizzato con runbook diversi. Questo perché la sezione Resource della policy non supporterà altri runbook.

  4. Per il ruolo del servizio Runbook, specifica il ruolo IAM da utilizzare per fornire le autorizzazioni necessarie per accedere e avviare il flusso di lavoro per il runbook stesso.

    Come minimo, il ruolo deve consentire l'ssm:StartAutomationExecutionazione per il runbook specifico. Affinché il runbook funzioni su più account, il ruolo deve consentire anche l'sts:AssumeRoleazione relativa al AWS-SystemsManager-AutomationExecutionRole ruolo creato durante la creazione. Gestione degli incidenti tra regioni e più account in Incident Manager

    Scegli tra le seguenti opzioni:

    • Crea un nuovo ruolo di servizio: Incident Manager crea automaticamente un ruolo del servizio Runbook che include le autorizzazioni minime richieste per avviare il flusso di lavoro del runbook.

      Per il nome del ruolo, puoi accettare il nome predefinito suggerito o inserire un nome a tua scelta. Ti consigliamo di utilizzare il nome suggerito o di mantenere il nome del runbook nel nome. Questo perché il nuovo AssumeRole è associato al runbook specifico selezionato e potrebbe non includere le autorizzazioni richieste per altri runbook.

    • Usa il ruolo di servizio esistente: un ruolo IAM creato in precedenza da te o da Incident Manager concede le autorizzazioni necessarie.

      Per Nome ruolo, seleziona il nome del ruolo esistente da utilizzare.

  5. Espandi Opzioni aggiuntive e scegli una delle seguenti opzioni per specificare Account AWS dove deve essere eseguito il flusso di lavoro del runbook.

    • Account del proprietario del piano di risposta: avvia il flusso di lavoro del runbook nello stesso luogo in Account AWS cui lo ha creato.

    • Account interessato: avvia il flusso di lavoro del runbook nell'account che ha avviato o segnalato l'incidente.

      Scegliete l'account Impacted quando utilizzate Incident Manager per scenari con più account e il runbook deve accedere alle risorse dell'account interessato per porvi rimedio.

  6. Continua integrando facoltativamente un servizio nel piano di risposta. PagerDuty

(Facoltativo) Integrazione di un PagerDuty servizio nel piano di risposta

Integrare un PagerDuty servizio nel piano di risposta

Quando si integra Incident Manager con PagerDuty, PagerDuty crea un incidente corrispondente ogni volta che Incident Manager crea un incidente. L'incidente PagerDuty utilizza il flusso di lavoro di paging e le politiche di escalation ivi definite, oltre a quelle di Incident Manager. PagerDuty allega gli eventi della cronologia di Incident Manager come note sull'incidente.

  1. Espandi le integrazioni di terze parti, quindi seleziona la casella di controllo Abilita PagerDuty integrazione.

  2. Per Seleziona segreto, seleziona il segreto in AWS Secrets Manager cui memorizzi le credenziali per accedere al tuo PagerDuty account.

    Per informazioni sulla memorizzazione delle PagerDuty credenziali in un segreto di Secrets Manager, vedereArchiviazione delle credenziali di PagerDuty accesso in modo segreto AWS Secrets Manager.

  3. Per PagerDuty assistenza, seleziona il servizio dal tuo PagerDuty account in cui desideri creare l' PagerDuty incidente.

  4. Continua aggiungendo tag opzionali e creando il piano di risposta.

Aggiungere tag e creare il piano di risposta

Per aggiungere tag e creare il piano di risposta
  1. (Facoltativo) Nell'area Tag, applica una o più coppie nome/valore chiave del tag al piano di risposta.

    I tag sono metadati facoltativi assegnati a una risorsa. Con i tag, puoi classificare una risorsa in diversi modi, ad esempio per scopo, proprietario o ambiente. Ad esempio, potresti voler etichettare un piano di risposta per identificare il tipo di incidente che intende mitigare, i tipi di canali di escalation che contiene o il piano di escalation che verrà associato ad esso. Per ulteriori informazioni sull'etichettatura delle risorse di Incident Manager, vedere. Etichettatura delle risorse in Incident Manager

  2. Scegli Crea piano di risposta.