Integrazione dei runbook di Systems Manager Automation in Incident Manager per la correzione degli incidenti - Incident Manager

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazione dei runbook di Systems Manager Automation in Incident Manager per la correzione degli incidenti

È possibile utilizzare i runbook di AWS Systems Manager Automation, una funzionalità di AWS Systems Manager, per automatizzare le attività comuni delle applicazioni e dell'infrastruttura nel proprio ambiente. Cloud AWS

Ogni runbook definisce un workflow di runbook, composto dalle azioni eseguite da Systems Manager sui nodi gestiti o su altri tipi di AWS risorse. È possibile utilizzare i runbook per automatizzare la manutenzione, l'implementazione e la riparazione delle risorse. AWS

In Incident Manager, un runbook favorisce la risposta e la mitigazione degli incidenti e si specifica un runbook da utilizzare come parte di un piano di risposta.

Nei piani di risposta, puoi scegliere tra dozzine di runbook preconfigurati per le attività più comunemente automatizzate oppure puoi creare runbook personalizzati. Quando si specifica un runbook nella definizione di un piano di risposta, il sistema può avviare automaticamente il runbook all'inizio di un incidente.

Importante

Gli incidenti creati da un failover interregionale non richiamano i runbook specificati nei piani di risposta.

Per ulteriori informazioni su Systems Manager Automation, i runbook e l'utilizzo dei runbook con Incident Manager, vedere i seguenti argomenti:

IAMautorizzazioni necessarie per avviare ed eseguire i flussi di lavoro dei runbook

Incident Manager richiede le autorizzazioni per eseguire i runbook come parte della risposta agli incidenti. Per fornire queste autorizzazioni, si utilizzano i ruoli AWS Identity and Access Management (IAM), il ruolo del servizio Runbook e l'automazione. AssumeRole

Il ruolo di servizio Runbook è un ruolo di servizio obbligatorio. Questo ruolo fornisce a Incident Manager le autorizzazioni necessarie per accedere e avviare il flusso di lavoro per il runbook.

L'automazione AssumeRole fornisce le autorizzazioni necessarie per eseguire i singoli comandi specificati nel runbook.

Nota

Se non AssumeRole viene specificato no, Systems Manager Automation tenta di utilizzare il ruolo del servizio Runbook per i singoli comandi. Se non si specifica unAssumeRole, è necessario aggiungere le autorizzazioni necessarie al ruolo del servizio Runbook. In caso contrario, il runbook non riesce a eseguire tali comandi.

Tuttavia, come best practice di sicurezza, consigliamo di utilizzare un file separatoAssumeRole. Con un ruolo separatoAssumeRole, puoi limitare le autorizzazioni necessarie da aggiungere a ciascun ruolo.

Per ulteriori informazioni sull'automazioneAssumeRole, consulta «Configurazione dell'accesso ai ruoli di servizio (assumi il ruolo) per le automazioni» nella Guida per l'AWS Systems Manager utente.

Puoi creare manualmente entrambi i tipi di ruolo nella IAM console.- Puoi anche lasciare che Incident Manager ne crei uno per te quando crei o aggiorni un piano di risposta.

Autorizzazioni per i ruoli di servizio Runbook

Le autorizzazioni per i ruoli del servizio Runbook vengono fornite tramite una politica simile alla seguente.

La prima istruzione consente a Incident Manager di avviare l'StartAutomationExecutionoperazione Systems Manager. Questa operazione viene quindi eseguita su risorse rappresentate dai tre formati Amazon Resource Name (ARN).

La seconda istruzione consente al ruolo del servizio Runbook di assumere un ruolo in un altro account quando tale runbook viene eseguito nell'account interessato. Per ulteriori informazioni, consulta Esecuzione di automazioni in più account nella Regioni AWS Guida per l'utente.AWS Systems Manager

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "ssm:StartAutomationExecution", "Resource": [ "arn:aws:ssm:*:{{DocumentAccountId}}:automation-definition/{{DocumentName}}:*", "arn:aws:ssm:*:{{DocumentAccountId}}:document/{{DocumentName}}:*", "arn:aws:ssm:*::automation-definition/{{DocumentName}}:*" ] }, { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::*:role/AWS-SystemsManager-AutomationExecutionRole", "Condition": { "StringEquals": { "aws:CalledViaLast": "ssm.amazonaws.com" } } } ] }
Autorizzazioni di automazione AssumeRole

Quando crei o aggiorni un piano di risposta, puoi scegliere tra diverse policy AWS gestite da allegare a AssumeRole quella creata da Incident Manager. Queste policy forniscono le autorizzazioni per eseguire una serie di operazioni comuni utilizzate negli scenari di runbook di Incident Manager. Puoi scegliere una o più di queste politiche gestite per fornire le autorizzazioni per la tua politica. AssumeRole La tabella seguente descrive le politiche tra cui è possibile scegliere quando si crea una AssumeRole dalla console Incident Manager.

AWSnome della politica gestita Descrizione della politica
AmazonSSMAutomationRole Concede le autorizzazioni al servizio Systems Manager Automation per eseguire le attività definite nei runbook. Assegna questa policy agli amministratori e agli utenti più affidabili.
AWSIncidentManagerResolverAccess

Concede agli utenti l'autorizzazione ad avviare, visualizzare e aggiornare gli incidenti. Puoi anche utilizzarli per creare eventi sulla cronologia dei clienti e elementi correlati nella dashboard degli incidenti.

È possibile utilizzare queste politiche gestite per concedere le autorizzazioni per molti scenari comuni di risposta agli incidenti. Tuttavia, le autorizzazioni richieste per le attività specifiche necessarie possono variare. In questi casi, devi fornire autorizzazioni politiche aggiuntive per il tuo. AssumeRole Per informazioni, consulta il riferimento all'AWS Systems Manager Automation Runbook.

Utilizzo dei parametri del runbook

Quando si aggiunge un runbook a un piano di risposta, è possibile specificare i parametri che il runbook deve utilizzare in fase di esecuzione. I piani di risposta supportano parametri con valori statici e dinamici. Per i valori statici, inserisci il valore quando definisci il parametro nel piano di risposta. Per i valori dinamici, il sistema determina il valore corretto del parametro raccogliendo informazioni dall'incidente. Incident Manager supporta i seguenti parametri dinamici:

Incident ARN

Quando Incident Manager crea un incidente, il sistema acquisisce l'Amazon Resource Name (ARN) del record di incidente corrispondente e lo inserisce per questo parametro nel runbook.

Nota

Questo valore può essere assegnato solo a parametri di tipo String. Se assegnato a un parametro di qualsiasi altro tipo, il runbook non viene eseguito.

Involved resources

Quando Incident Manager crea un incidente, il sistema acquisisce ARNs le risorse coinvolte nell'incidente. Queste risorse ARNs vengono quindi assegnate a questo parametro nel runbook.

Informazioni sulle risorse associate

Incident Manager può compilare i valori dei parametri ARNs del runbook con le AWS risorse specificate negli CloudWatch allarmi, negli EventBridge eventi e negli incidenti creati manualmente. Questa sezione descrive i diversi tipi di risorse che Incident Manager può acquisire ARNs durante la compilazione di questo parametro.

CloudWatch allarmi

Quando viene creato un incidente a seguito di un'azione di CloudWatch allarme, Incident Manager estrae automaticamente i seguenti tipi di risorse dalle metriche associate. Quindi popola i parametri scelti con le seguenti risorse coinvolte:

AWS servizio Tipo di risorsa

Amazon DynamoDB

Indici secondari globali

Streams

Tabelle

Amazon EC2

Immagini

Istanze

AWS Lambda

Alias di funzioni

Versioni della funzione

Funzioni

Servizio di Database Relazionale Amazon (AmazonRDS)

Cluster

Istanze di database

Amazon Simple Storage Service (Amazon S3)

Bucket

EventBridge regole

Quando il sistema crea un incidente da un EventBridge evento, Incident Manager popola i parametri scelti con la Resources proprietà dell'evento. Per ulteriori informazioni, consulta EventBridgegli eventi Amazon nella Amazon EventBridge User Guide.

Incidenti creati manualmente

Quando si crea un incidente utilizzando l'StartIncidentAPIazione, Incident Manager inserisce i parametri scelti utilizzando le informazioni contenute nella API chiamata. In particolare, popola i parametri utilizzando elementi del tipo INVOLVED_RESOURCE che vengono passati nel relatedItems parametro.

Nota

Il INVOLVED_RESOURCES valore può essere assegnato solo a parametri di tipoStringList. Se assegnato a un parametro di qualsiasi altro tipo, il runbook non viene eseguito.

Definire un runbook

Quando si crea un runbook, è possibile seguire i passaggi indicati qui oppure seguire la guida più dettagliata fornita nella sezione Working with runbook della Systems Manager User Guide. Se stai creando un runbook con più account e più regioni, consulta Running automations in multiple Regioni AWS and accounts nella Systems Manager User Guide.

Definisci un runbook
  1. Aprire la console Systems Manager all'indirizzo https://console.aws.amazon.com/systems-manager/.

  2. Nel riquadro di navigazione, scegli Documenti.

  3. Scegliere Create automation (Crea automazione).

  4. Immettete un nome di runbook univoco e identificabile.

  5. Inserisci una descrizione del runbook.

  6. Fornite un IAM ruolo da assumere per il documento di automazione. Ciò consente al runbook di eseguire i comandi automaticamente. Per ulteriori informazioni, vedere Configurazione dell'accesso ai ruoli di servizio per i flussi di lavoro di automazione.

  7. (Facoltativo) Aggiungi tutti i parametri di input con cui inizia il runbook. È possibile utilizzare parametri dinamici o statici all'avvio di un runbook. I parametri dinamici utilizzano i valori dell'incidente in cui viene avviato il runbook. I parametri statici utilizzano il valore fornito dall'utente.

  8. (Facoltativo) Aggiungi un tipo di destinazione.

  9. (Facoltativo) Aggiungi tag.

  10. Compila i passaggi che il runbook eseguirà quando verrà eseguito. Ogni passaggio richiede:

    • un nome;

    • Una descrizione dello scopo della fase.

    • L'azione da eseguire durante la fase. I runbook utilizzano il tipo di azione Pause per descrivere un passaggio manuale.

    • (Facoltativo) Proprietà dei comandi.

  11. Dopo aver aggiunto tutti i passaggi richiesti del runbook, scegli Create Automation.

Per abilitare la funzionalità tra più account, condividi il runbook nel tuo account di gestione con tutti gli account delle applicazioni che lo utilizzano durante un incidente.

Condividi un runbook
  1. Aprire la console Systems Manager all'indirizzo https://console.aws.amazon.com/systems-manager/.

  2. Nel riquadro di navigazione, scegli Documenti.

  3. Nell'elenco dei documenti, scegli il documento che desideri condividere, quindi scegli Visualizza dettagli. Nella scheda Permissions (Autorizzazioni), verificare di essere il proprietario del documento. Soltanto il proprietario di un documento può condividerlo.

  4. Scegli Modifica.

  5. Per condividere il comando pubblicamente, scegliere Public (Pubblico), quindi selezionare Save (Salva). Per condividere il comando in privato, scegli Privato, inserisci l' Account AWS ID, scegli Aggiungi autorizzazione, quindi scegli Salva.

Modello di runbook di Incident Manager

Incident Manager fornisce il seguente modello di runbook per aiutare il team a iniziare a creare runbook nell'automazione di Systems Manager. È possibile utilizzare questo modello così com'è o modificarlo per includere dettagli specifici dell'applicazione e delle risorse.

Trova il modello di runbook di Incident Manager
  1. Aprire la console Systems Manager all'indirizzo https://console.aws.amazon.com/systems-manager/.

  2. Nel riquadro di navigazione, scegli Documenti.

  3. Nell'area Documenti, accedete al campo AWSIncidents- di ricerca per visualizzare tutti i runbook di Incident Manager.

    Suggerimento

    Immettete AWSIncidents- come testo libero invece di utilizzare l'opzione di filtro del prefisso del nome del documento.

Utilizzo di un modello
  1. Aprire la console Systems Manager all'indirizzo https://console.aws.amazon.com/systems-manager/.

  2. Nel riquadro di navigazione, scegli Documenti.

  3. Scegliete il modello che desiderate aggiornare dall'elenco dei documenti.

  4. Scegli la scheda Contenuto, quindi copia il contenuto del documento.

  5. Nel riquadro di navigazione, scegli Documenti.

  6. Scegliere Create automation (Crea automazione).

  7. Immettete un nome univoco e identificabile.

  8. Scegli la scheda Editor.

  9. Scegli Modifica.

  10. Incolla o inserisci i dettagli copiati nell'area dell'editor del documento.

  11. Scegliere Create automation (Crea automazione).

AWSIncidents-CriticalIncidentRunbookTemplate

AWSIncidents-CriticalIncidentRunbookTemplateSi tratta di un modello che fornisce il ciclo di vita degli incidenti di Incident Manager in passaggi manuali. Questi passaggi sono abbastanza generici da poter essere utilizzati nella maggior parte delle applicazioni, ma sufficientemente dettagliati da consentire ai soccorritori di iniziare a risolvere gli incidenti.