Integrando runbooks do Systems Manager Automation no Incident Manager para remediação de incidentes - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Integrando runbooks do Systems Manager Automation no Incident Manager para remediação de incidentes

Você pode usar runbooks da AWS Systems Manager Automation, uma ferramenta da AWS Systems Manager, para automatizar tarefas comuns de aplicativos e infraestrutura em seu Nuvem AWS ambiente.

Cada runbook define um fluxo de trabalho do runbook, que é composto pelas ações que o Systems Manager executa em seus nós gerenciados ou em outros tipos de AWS recursos. Você pode usar runbooks para automatizar a manutenção, a implantação e a remediação de seus recursos AWS .

No Incident Manager, um runbook impulsiona a resposta e a mitigação de incidentes, e você especifica um runbook para usar como parte de um plano de resposta.

Em seus planos de resposta, você pode escolher entre dezenas de runbooks pré-configurados para tarefas comumente automatizadas ou criar runbooks personalizados. Quando você especifica um runbook em uma definição de plano de resposta, o sistema pode iniciar automaticamente o runbook quando um incidente começa.

Importante

Os incidentes criados por um failover entre Regiões não invocam os runbooks especificados nos planos de resposta.

Para obter mais informações sobre Systems Manager Automation, runbooks e uso de runbooks com o Incident Manager, consulte os tópicos a seguir:

Permissões do IAM necessárias para iniciar e executar fluxos de trabalho do runbook

O Incident Manager exige permissões para executar runbooks como parte de sua resposta a incidentes. Para fornecer essas permissões, você usa as funções AWS Identity and Access Management (IAM), a função de serviço Runbook e a automação AssumeRole.

O perfil de serviço Runbook é um perfil de serviço obrigatório. Esse perfil fornece ao Incident Manager as permissões necessárias para acessar e iniciar o fluxo de trabalho do runbook.

A Automação AssumeRole fornece as permissões necessárias para executar os comandos individuais especificados no runbook.

nota

Se nenhum AssumeRole for especificado, o Systems Manager Automation tentará usar o perfil de serviço Runbook para comandos individuais. Se você não especificar umAssumeRole, deverá adicionar as permissões necessárias ao perfil de serviço do Runbook. Se você não fizer isso, o runbook não conseguirá executar esses comandos.

No entanto, como uma prática recomendada de segurança, recomendamos usar um separado AssumeRole. Com um separado AssumeRole, é possível limitar as permissões necessárias que você deve adicionar a cada perfil.

Para obter mais informações sobre a Automação AssumeRole, consulte Configuração de um acesso ao perfil de serviço (assumir perfil) para automações no AWS Systems Manager Guia do usuário.

Você mesmo pode criar qualquer tipo de perfil manualmente no console do IAM e também pode permitir que o Incident Manager crie uma para você ao criar ou atualizar um plano de resposta.

Permissões de perfil de serviço runbook

As permissões do perfil de serviço do Runbook são fornecidas por meio de uma política semelhante à seguinte.

A primeira declaração permite que o Incident Manager inicie a StartAutomationExecution operação do Systems Manager. Essa operação então será executada em recursos representados pelos três formatos de Nome do recurso da Amazon (ARN).

A segunda instrução permite que o perfil de serviço do Runbook assuma um perfil em outra conta quando esse runbook é executado na conta afetada. Para obter mais informações, consulte Execução de automações em várias contas Regiões da AWS e no Guia do AWS Systems Manager usuário.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "ssm:StartAutomationExecution", "Resource": [ "arn:aws:ssm:*:{{DocumentAccountId}}:automation-definition/{{DocumentName}}:*", "arn:aws:ssm:*:{{DocumentAccountId}}:document/{{DocumentName}}:*", "arn:aws:ssm:*::automation-definition/{{DocumentName}}:*" ] }, { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::*:role/AWS-SystemsManager-AutomationExecutionRole", "Condition": { "StringEquals": { "aws:CalledViaLast": "ssm.amazonaws.com" } } } ] }
AssumeRole Permissões de automação

Ao criar ou atualizar um plano de resposta, você pode escolher entre várias políticas AWS gerenciadas para anexar às AssumeRole que o Incident Manager cria. Essas políticas fornecem permissões para executar várias operações comuns usadas em cenários de runbook do Incident Manager. Você pode escolher uma ou mais dessas políticas gerenciadas para fornecer permissões para sua política AssumeRole. A tabela a seguir descreve as políticas que você pode escolher ao criar uma AssumeRole no console do Incident Manager.

Nome da política gerenciada pela AWS Descrição da política
AmazonSSMAutomationRole Concede permissões para que o serviço Systems Manager Automation execute atividades definidas nos runbooks. Atribui essa política a administradores e usuários avançados confiáveis.
AWSIncidentManagerResolverAccess

Concede permissão para que os usuários iniciem, visualizem e atualizem incidentes. Você também pode usá-las para criar eventos do cronograma do cliente e itens relacionados no painel de incidentes.

Você pode usar essas políticas gerenciadas para conceder permissões para vários cenários comuns de resposta a incidentes. No entanto, as permissões necessárias para as tarefas específicas de que você precisa podem variar. Nesses casos, você precisa fornecer permissões adicionais de política para seu AssumeRole. Para obter mais informações, consulte AWS Systems Manager Referência de runbook do Automation.

Trabalho com parâmetros de runbook

Ao adicionar um runbook a um plano de resposta, é possível especificar os parâmetros que esse runbook deve utilizar no tempo de execução. Planos de resposta oferecem suporte a parâmetros com valores estáticos e dinâmicos. Para valores estáticos, você insere o valor ao definir o parâmetro no plano de resposta. Para valores dinâmicos, o sistema determina o valor correto do parâmetro coletando informações do incidente. O Incident Manager é compatível com os seguintes parâmetros dinâmicos:

Incident ARN

Quando o Incident Manager cria um incidente, o sistema captura o nome do recurso da Amazon (ARN) do registro de incidente correspondente e o insere para esse parâmetro no runbook.

nota

Esse valor apenas pode ser atribuído a parâmetros do tipo String. Se atribuído a um parâmetro de qualquer outro tipo, o runbook não será executado.

Involved resources

Quando o Incident Manager cria um incidente, o ARNs sistema captura os recursos envolvidos no incidente. Esses recursos ARNs são então atribuídos a esse parâmetro no runbook.

Sobre os recursos associados

O Incident Manager pode preencher os valores dos parâmetros ARNs do runbook com os AWS recursos especificados em CloudWatch alarmes, EventBridge eventos e incidentes criados manualmente. Esta seção descreve os diferentes tipos de recursos que o Incident Manager pode capturar ARNs ao preencher esse parâmetro.

CloudWatch alarmes

Quando um incidente é criado a partir de uma ação de CloudWatch alarme, o Incident Manager extrai automaticamente os seguintes tipos de recursos das métricas associadas. Em seguida, ele preenche os parâmetros escolhidos com os seguintes recursos envolvidos:

AWS serviço Tipo de recurso

Amazon DynamoDB

Índices secundários globais

Fluxos

Tabelas

Amazon EC2

Imagens

Instâncias

AWS Lambda

Aliases de funções

Versões da função

Funções

Amazon Relational Database Service (Amazon RDS)

Clusters

Instâncias de bancos de dados

Amazon Simple Storage Service (Amazon S3)

Buckets

EventBridge regras

Quando o sistema cria um incidente a partir de um EventBridge evento, o Incident Manager preenche os parâmetros escolhidos com a Resources propriedade no evento. Para obter mais informações, consulte EventBridgeos eventos da Amazon no Guia EventBridge do usuário da Amazon.

Incidentes criados manualmente

Quando você cria um incidente usando a ação da StartIncidentAPI, o Incident Manager preenche os parâmetros escolhidos usando as informações na chamada da API. Especificamente, ele preenche os parâmetros usando itens do tipo INVOLVED_RESOURCE que são passados no relatedItems parâmetro.

nota

O valor INVOLVED_RESOURCES apenas pode ser atribuído a parâmetros do tipo StringList. Se atribuído a um parâmetro de qualquer outro tipo, o runbook não será executado.

Defina um runbook

Ao criar um runbook, você pode seguir as etapas fornecidas aqui ou seguir o guia mais detalhado fornecido na seção Trabalho com runbooks do Guia de Usuário do Systems Manager. Se você estiver criando um runbook com várias contas e várias regiões, consulte Executando automações em várias contas Regiões da AWS e contas no Guia do Usuário do Systems Manager.

Defina um runbook
  1. Abra o console do Systems Manager em https://console.aws.amazon.com/systems-manager/.

  2. No painel de navegação, escolha Documents.

  3. Escolha Criar automação.

  4. Insira um nome de runbook exclusivo e identificável.

  5. Digite uma descrição do runbook.

  6. Forneça um perfil do IAM para o documento de automação assumir. Isso permite que o runbook execute comandos automaticamente. Para obter mais informações, consulte Configurar um acesso ao perfil de serviço para fluxos de trabalho de automação.

  7. (Opcional) Adicione todos os parâmetros de entrada com os quais o runbook começa. Você pode usar parâmetros dinâmicos ou estáticos ao iniciar um runbook. Os parâmetros dinâmicos usam valores do incidente em que o runbook é iniciado. Os parâmetros estáticos usam o valor que você fornece.

  8. (Opcional) Adicione um tipo de Destino.

  9. (Opcional) Adicione tags.

  10. Preencha as etapas que o runbook seguirá ao ser executado. Cada etapa exige:

    • Um nome.

    • Uma descrição da finalidade da etapa.

    • A ação a ser executada durante a etapa. Os runbooks usam o tipo de ação Pausa para descrever uma etapa manual.

    • (Opcional) Propriedades do comando.

  11. Depois de adicionar todas as etapas necessárias do runbook, escolha Criar automação.

Para habilitar a funcionalidade entre contas, compartilhe o runbook em sua conta de gerenciamento com todas as contas de aplicativos que usam o runbook durante um incidente.

Compartilhe um runbook
  1. Abra o console do Systems Manager em https://console.aws.amazon.com/systems-manager/.

  2. No painel de navegação, escolha Documents.

  3. Na lista de documentos, selecione o documento que você deseja compartilhar e escolha Visualizar detalhes. Na guia Permissions, verifique se você é o proprietário do documento. Somente o proprietário de um documento pode compartilhá-lo.

  4. Selecione Editar.

  5. Para compartilhar o comando publicamente, escolha Public (Público) e depois Save (Salvar). Para compartilhar o comando de forma privada, escolha Privado, insira o Conta da AWS ID, escolha Adicionar permissão e escolha Salvar.

Modelo de runbook do Incident Manager

O Incident Manager fornece o seguinte modelo de runbook para ajudar sua equipe a começar a criar runbooks na automação do Systems Manager. Você pode usar esse modelo como está ou editá-lo para incluir detalhes específicos de seu aplicativo e recursos.

Encontre o modelo de runbook do Incident Manager
  1. Abra o console do Systems Manager em https://console.aws.amazon.com/systems-manager/.

  2. No painel de navegação, escolha Documents.

  3. Na área Documents, insira AWSIncidents- no campo de pesquisa para exibir todos os runbooks do Incident Manager.

    dica

    Insira AWSIncidents- como texto livre em vez de usar a opção de filtro de Prefixo do nome do documento.

Usar um modelo
  1. Abra o console do Systems Manager em https://console.aws.amazon.com/systems-manager/.

  2. No painel de navegação, escolha Documents.

  3. Escolha o modelo que você deseja atualizar na lista de documentos.

  4. Escolha a guia Conteúdo e, em seguida, copie o conteúdo do documento.

  5. No painel de navegação, escolha Documents.

  6. Escolha Criar automação.

  7. Insira um nome exclusivo e identificável.

  8. Escolha a guia Editor.

  9. Selecione Editar.

  10. Cole ou insira os detalhes copiados na área Editor de documentos.

  11. Escolha Criar automação.

AWSIncidents-CriticalIncidentRunbookTemplate

O AWSIncidents-CriticalIncidentRunbookTemplate é um modelo que fornece o ciclo de vida do incidente do Incident Manager em etapas manuais. Essas etapas são genéricas o suficiente para serem usadas na maioria dos aplicativos, mas detalhadas o suficiente para que os respondentes comecem a resolver incidentes.