Como trabalhar com planos de resposta no Incident Manager - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como trabalhar com planos de resposta no Incident Manager

Os planos de resposta permitem que você planeje como responder a um incidente que afeta seus usuários. Um plano de resposta funciona como um modelo com informações sobre quem engajar, a gravidade esperada do evento, os runbooks automáticos a iniciar e métricas a monitorar.

Práticas recomendadas

Você pode reduzir o impacto dos incidentes em suas equipes planejando bem antes a resposta a incidentes. As equipes devem considerar as seguintes práticas recomendadas ao criar um plano de resposta.

  • Engajamento simplificado — identifique a equipe mais adequada para um incidente. Se você usar uma lista de distribuição muito ampla ou se engajar as equipes erradas, poderá causar confusão e atrasar o tempo de resposta durante um incidente.

  • Escalação confiável — nos seus engajamentos no plano de resposta, recomendamos selecionar um plano de engajamento em vez de contatos ou horários de plantão. O plano de engajamento deve especificar cada contato ou os horários de plantão (que contêm vários contatos rotativos) a serem engajados durante incidentes. Como os respondentes especificados no plano de engajamento podem estar fora de área às vezes, você deve configurar os primeiros contatos substitutos a responder no plano de resposta, para cobrir casos assim. Com contatos substitutos, se os contatos primários e secundários não estiverem disponíveis ou se houver outras faltas não planejadas na cobertura, o Incident Manager ainda notificará um contato sobre o incidente.

  • Runbooks — use os runbooks para fornecer etapas reproduzíveis e compreensíveis reduzindo o estresse que um respondente passa durante um incidente.

  • Colaboração — use canais de chat para agilizar a comunicação durante incidentes. Os canais de chat ajudam os respondentes a ficarem atualizados com as informações. Eles também podem compartilhar informações com outros respondentes por meio desses canais.

Criar um plano de resposta

Use o procedimento a seguir para criar um plano de resposta e automatizar a resposta a incidentes.

Para criar um plano de resposta
  1. Abra o console do Incident Manager e escolha Planos de resposta no painel de navegação esquerdo.

  2. Selecione Criar plano de resposta.

  3. Em Nome, insira um nome de plano de resposta exclusivo e identificável para usar no nome do recurso da Amazon (ARN) do plano de resposta.

  4. (Opcional) Em Nome de exibição, insira um nome mais legível para humanos para ajudar a identificar o plano de resposta ao criar incidentes.

  5. Continue especificando valores padrão para registros de incidentes.

Especificação de valores padrão do incidente

Para ajudá-lo a gerenciar incidentes com mais eficiência, você pode especificar valores padrão. O Incident Manager aplica esses valores a todos os incidentes associados a um plano de resposta.

Para especificar valores padrão de incidente
  1. Em Título, insira um título para esse incidente para ajudá-lo a identificá-lo na página inicial do Incident Manager.

  2. Em Impacto, escolha um nível de impacto para indicar o potencial escopo de um incidente criado nesse plano de resposta, como Crítico ou Baixo. Para obter informações sobre classificações de impacto no Incident Manager, consulte Triagem.

  3. (Opcional) Em Resumo, insira um breve resumo do tipo de incidente criado nesse plano de resposta.

  4. (Opcional) Em Cadeia de desduplicação, insira uma cadeia de caracteres de desduplicação. O Incident Manager usa essa string para evitar que a mesma causa raiz crie vários incidentes na mesma conta.

    Uma sequência de desduplicação é um termo ou frase que o sistema usa para verificar incidentes duplicados. Se você especificar uma string de desduplicação, o Incident Manager pesquisará incidentes abertos que contenham a mesma string dedupeString no campo ao criar o incidente. Se uma duplicação for detectada, o Incident Manager desduplica o incidente mais recente no incidente existente.

    nota

    Por padrão, o Incident Manager desduplica automaticamente vários incidentes criados pelo mesmo alarme do Amazon CloudWatch ou no evento do Amazon EventBridge. Você não precisa inserir sua própria sequência de desduplicação para evitar a duplicação desses tipos de recursos.

  5. (Opcional) Em Tags de incidentes, adicione chaves e valores de tag para atribuir aos incidentes criados a partir desse plano de resposta.

    Você deve ter a permissão TagResource para que o recurso de registro de incidentes defina tags de incidentes no plano de resposta.

  6. Continue especificando um canal de chat opcional para que os resolvedores se comuniquem sobre incidentes.

(Opcional) Especificar um canal de chat de resposta a incidentes

Quando você inclui um canal de chat em um plano de resposta, os respondentes recebem atualizações de incidentes pelo canal. Eles podem interagir com o incidente diretamente do canal de chat usando comandos de chat.

Usando o AWS Chatbot, você pode criar um canal do Slack ou do Amazon Chime para usar em seus planos de resposta. Para obter informações sobre como criar um canal de chat no AWS Chatbot, consulte o Guia do administrador do AWS Chatbot.

Importante

O Incident Manager deve ter permissões para publicar no tópico do Amazon Simple Notification Service (Amazon SNS) do canal de chat. Sem permissões para publicar nesse tópico do SNS, você não poderá adicioná-lo ao plano de resposta. O Incident Manager publica uma notificação de teste no tópico do SNS para verificar as permissões.

Para obter mais informações sobre canais de chat, consulte Trabalhando com canais de chat no Incident Manager.

Para especificar um canal de chat de resposta a incidentes
  1. Em Canal de chat, selecione um canal de chat do AWS Chatbot em que os respondentes possam se comunicar durante um incidente.

    dica

    Para criar um novo canal de chat no AWS Chatbot, escolha Configurar novo cliente de Chatbot.

  2. Em Tópicos de SNS do canal de chat, escolha tópicos adicionais de SNS para publicar durante o incidente. Adicionar tópicos do SNS em várias Regiões da AWS aumenta a redundância caso uma região esteja inativa no momento do incidente.

  3. Continue selecionando os contatos, os horários de plantão e os planos de escalação a serem acionados durante um incidente.

(Opcional) Selecione recursos a acionar na resposta a incidentes

É importante identificar os respondentes mais adequados no caso de ocorrer um incidente. Recomendamos seguir estas práticas recomendadas:

  1. Adicione o horário de plantão como canais de escalação em um plano de escalação.

  2. Escolha um plano de escalação como engajamento em um plano de resposta.

Para obter mais informações sobre contatos e planos de escalação, consulte Como trabalhar com contatos do Incident Manager e Como trabalhar com planos de escalação no Incident Manager.

Para selecionar recursos a acionar na resposta a incidentes
  1. Em Engajamentos, escolha qualquer número de planos de escalação, horários de plantão e contatos individuais.

  2. Continue especificando se vai usar um runbook a ser executado como parte da mitigação de incidentes.

(Opcional) Especificar um runbook para mitigação de incidentes

Você pode usar runbooks da Automação do AWS Systems Manager, um recurso do AWS Systems Manager, para automatizar tarefas comuns de aplicativos e infraestrutura em seu ambiente Nuvem AWS.

Cada runbook define um fluxo de trabalho de runbook. Um fluxo de trabalho de runbook inclui as ações que o Systems Manager realiza nos nós gerenciados ou em outros tipos de recursos da AWS. No Incident Manager, um runbook impulsiona a resposta e a mitigação de incidentes.

Para obter mais informações sobre como usar runbooks em planos de resposta, consulte Trabalho com runbooks do Automation do Systems Manager no Incident Manager.

Para especificar um runbook para mitigação de incidentes:

  1. Em Runbook, realize um destes procedimentos:

    • Escolha Clonar runbook a partir do modelo para fazer uma cópia do runbook padrão do Incident Manager. Em Nome do runbook, insira um nome descritivo para o novo runbook.

    • Escolha Selecionar runbook existente. Selecione o Proprietário, o Runbook e a Versão a usar.

      dica

      Para criar um runbook do zero, escolha Configurar novo runbook.

      Para obter informações sobre como criar runbooks, consulte Trabalho com runbooks do Automation do Systems Manager no Incident Manager.

  2. Na área Parâmetros, forneça todos os parâmetros solicitados para o runbook selecionado.

    Os parâmetros disponíveis são aqueles especificados pelo runbook. Um runbook pode exigir parâmetros diferentes dos outros. Alguns parâmetros podem ser obrigatórios e outros opcionais.

    Em muitos casos, você pode optar por inserir manualmente um valor estático para um parâmetro, como uma lista de IDs de instância do Amazon EC2. Você também pode permitir que o Incident Manager forneça os valores dos parâmetros que foram gerados dinamicamente por um incidente.

  3. (Opcional) Em AutomationAssumeRole, especifique o perfil do IAM AWS Identity and Access Management a ser usado. Esse perfil deve ter as permissões necessárias para executar os comandos individuais especificados no runbook.

    nota

    Se não for especificado AssumeRole, o Incident Manager tentará usar o perfil de serviço do Runbook para executar os comandos individuais especificados no runbook.

    Escolha uma das seguintes opções:

    • Inserir valor do ARN — insira manualmente o nome do recurso da Amazon (ARN) de um AssumeRole, no formato arn:aws:iam::account-id:role/assume-role-name. Por exemplo, arn:aws:iam::123456789012:role/MyAssumeRole.

    • Usar perfil de serviço existente — escolha um perfil com as permissões necessárias em uma lista de perfis existentes em sua conta.

    • Criar novo perfil de serviço — escolha entre as políticas gerenciadas da AWS a anexar ao seu AssumeRole. Depois de selecionar essa opção, em políticas gerenciadas do AWS, escolha uma ou mais políticas na lista.

      Você pode aceitar o nome padrão sugerido para o novo perfil ou pode escolher um nome que preferir.

      nota

      Esse novo perfil de serviço do Runbook está associado ao runbook específico que você selecionou. Ele não pode ser usado com runbooks diferentes. Isso ocorre porque a seção Recursos da política não suportará outros runbooks.

  4. Em Perfil de serviço do runbook, especifique o perfil do IAM a ser usado para fornecer as permissões necessárias para acessar e iniciar o fluxo de trabalho do próprio runbook.

    No mínimo, o perfil deve permitir a ação ssm:StartAutomationExecution para seu runbook específico. Para que o runbook funcione em várias contas, o perfil também deve permitir a ação sts:AssumeRole do perfil do AWS-SystemsManager-AutomationExecutionRole criado durante Incident management entre regiões e entre contas no Incident Manager.

    Escolha uma das seguintes opções:

    • Criar novo perfil de serviço — o Incident Manager cria um perfil de serviço do runbook para você com as permissões mínimas necessárias para iniciar o fluxo de trabalho do runbook.

      Em Nome do perfil, você pode aceitar o nome padrão sugerido ou pode inserir um nome que preferir. Recomendamos usar o nome sugerido ou manter o nome do runbook no nome. Isso é pelo fato de o novo AssumeRole estar associado ao runbook específico selecionado e que pode não ter as permissões necessárias para outros runbooks.

    • Usar perfil de serviço existente — um perfil do IAM criado anteriormente por você ou pelo Incident Manager concede as permissões necessárias.

      Em Nome do perfil, selecione o nome do perfil existente a usar.

  5. Expanda Opções adicionais e escolha uma das opções a seguir para especificar a Conta da AWS onde o fluxo de trabalho do runbook deve ser executado.

    • Conta do proprietário do plano de resposta — inicie o fluxo de trabalho do runbook na Conta da AWS que o criou.

    • Conta afetada — inicie o fluxo de trabalho do runbook na conta que iniciou ou relatou o incidente.

      Escolha Conta impactada ao usar o Incident Manager em cenários entre contas e o runbook precisa acessar recursos na conta afetada para poder fazer as correções.

  6. Continue integrando opcionalmente um serviço PagerDuty ao plano de resposta.

(Opcional) Integrar um serviço PagerDuty ao plano de resposta

Integrar um serviço PagerDuty ao plano de resposta

Ao integrar o Incident Manager com o PagerDuty, o PagerDuty criará um incidente correspondente sempre que o Incident Manager criar um incidente. O incidente no PagerDuty usa o fluxo de trabalho de paginação e as políticas de escalação que você definiu lá, além das do Incident Manager. O PagerDuty anexa eventos da linha do tempo do Incident Manager como notas sobre seu incidente.

  1. Expanda Integrações de terceiros e escolha a caixa de seleção Ativar integração com o PagerDuty.

  2. Em Selecionar segredo, selecione o segredo no AWS Secrets Manager em que você armazena as credenciais para acessar sua conta do PagerDuty.

    Para obter informações sobre como armazenar suas credenciais do PagerDuty em um segredo do Secrets Manager, consulte Armazenando credenciais de PagerDuty acesso em segredo AWS Secrets Manager.

  3. Em Serviço PagerDuty, selecione o serviço da sua conta do PagerDuty em que deseja criar o incidente do PagerDuty.

  4. Continue adicionando tags opcionais e criando o plano de resposta.

Como adicionar tags e criar o plano de resposta

Como adicionar tags e criar o plano de resposta
  1. (Opcional) Na área Tags, aplique um ou mais pares de nome/valor de chave de tag ao plano de resposta.

    Tags são metadados opcionais que você atribui a um recurso. Usando tags, você pode categorizar um recurso de diferentes formas, como por finalidade, proprietário ou ambiente. Por exemplo, você pode aplicar tag em um plano de resposta para identificar o tipo de incidente ao qual ele se destina a mitigar, os tipos de canais de escalação que ele contém ou o plano de escalação que será associado a ele. Para obter mais informações sobre como aplicar tags em recursos do Incident Manager, consulte Marcando recursos no Incident Manager.

  2. Selecione Criar plano de resposta.