Criação e configuração de planos de resposta no Incident Manager - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criação e configuração de planos de resposta no Incident Manager

Os planos de resposta permitem que você planeje como responder a um incidente que afeta seus usuários. Um plano de resposta funciona como um modelo com informações sobre quem engajar, a gravidade esperada do evento, os runbooks automáticos a iniciar e métricas a monitorar.

Práticas recomendadas

Você pode reduzir o impacto dos incidentes em suas equipes planejando bem antes a resposta a incidentes. As equipes devem considerar as seguintes práticas recomendadas ao criar um plano de resposta.

  • Engajamento simplificado: identifique a equipe mais adequada para um incidente. Se você usar uma lista de distribuição muito ampla ou se engajar as equipes erradas, poderá causar confusão e atrasar o tempo de resposta durante um incidente.

  • Escalação confiável: nos seus engajamentos no plano de resposta, recomendamos selecionar um plano de engajamento em vez de contatos ou escalas de plantão. O plano de engajamento deve especificar cada contato ou as escalas de plantão (que contêm vários contatos rotativos) a serem engajados durante incidentes. Como os respondentes especificados no plano de engajamento podem estar fora de área às vezes, você deve configurar os primeiros contatos substitutos a responder no plano de resposta, para cobrir casos assim. Com contatos substitutos, se os contatos primários e secundários não estiverem disponíveis ou se houver outras faltas não planejadas na cobertura, o Incident Manager ainda notificará um contato sobre o incidente.

  • Runbooks: use os runbooks para fornecer etapas reproduzíveis e compreensíveis reduzindo o estresse que um respondente passa durante um incidente.

  • Colaboração: use canais de chat para agilizar a comunicação durante incidentes. Os canais de chat ajudam os respondentes a ficarem atualizados com as informações. Eles também podem compartilhar informações com outros respondentes por meio desses canais.

Criar um plano de resposta

Use o procedimento a seguir para criar um plano de resposta e automatizar a resposta a incidentes.

Para criar um plano de resposta
  1. Abra o console do Incident Manager e escolha Planos de resposta no painel de navegação esquerdo.

  2. Selecione Criar plano de resposta.

  3. Em Nome, insira um nome de plano de resposta exclusivo e identificável para usar no Amazon Resource Name (ARN) para o plano de resposta.

  4. (Opcional) Em Nome de exibição, insira um nome mais legível para humanos para ajudar a identificar o plano de resposta ao criar incidentes.

  5. Continue especificando valores padrão para registros de incidentes.

Especificação de valores padrão do incidente

Para ajudar você a gerenciar incidentes com mais eficiência, você pode especificar valores padrão. O Incident Manager aplica esses valores a todos os incidentes associados a um plano de resposta.

Para especificar valores padrão de incidente
  1. Em Título, insira um título para esse incidente para ajudar você a identificá-lo na página inicial do Incident Manager.

  2. Em Impacto, escolha um nível de impacto para indicar o potencial escopo de um incidente criado nesse plano de resposta, como Crítico ou Baixo. Para obter informações sobre classificações de impacto no Incident Manager, consulte Triagem.

  3. (Opcional) Em Resumo, insira um breve resumo do tipo de incidente criado nesse plano de resposta.

  4. (Opcional) Em Cadeia de desduplicação, insira uma cadeia de caracteres de desduplicação. O Incident Manager usa essa string para evitar que a mesma causa raiz crie vários incidentes na mesma conta.

    Uma sequência de desduplicação é um termo ou frase que o sistema usa para verificar incidentes duplicados. Se você especificar uma string de desduplicação, o Incident Manager pesquisará incidentes abertos que contenham a mesma string dedupeString no campo ao criar o incidente. Se uma duplicação for detectada, o Incident Manager desduplica o incidente mais recente no incidente existente.

    nota

    Por padrão, o Incident Manager desduplica automaticamente vários incidentes criados pelo mesmo alarme da Amazon CloudWatch ou evento da Amazon. EventBridge Você não precisa inserir sua própria sequência de desduplicação para evitar a duplicação desses tipos de recursos.

  5. (Opcional) Em Tags de incidentes, adicione chaves e valores de tag para atribuir aos incidentes criados a partir desse plano de resposta.

    Você deve ter a permissão TagResource para que o recurso de registro de incidentes defina tags de incidentes no plano de resposta.

  6. Continue especificando um canal de chat opcional para que os resolvedores se comuniquem sobre incidentes.

(Opcional) Especificar um canal de chat de resposta a incidentes

Quando você inclui um canal de chat em um plano de resposta, os respondentes recebem atualizações de incidentes pelo canal. Eles podem interagir com o incidente diretamente do canal de chat usando comandos de chat.

Usando AWS Chatbot, você pode criar um canal para Slack, para Microsoft Teams, ou para o Amazon Chime usar em seus planos de resposta. Para obter informações sobre como criar um canal de bate-papo em AWS Chatbot, consulte o Guia AWS Chatbot do administrador.

Importante

O Incident Manager deve ter permissões para publicar no tópico Amazon Simple Notification Service (AmazonSNS) de um canal de bate-papo. Sem permissões para publicar nesse SNS tópico, você não pode adicioná-lo ao plano de resposta. O Incident Manager publica uma notificação de teste no SNS tópico para verificar as permissões.

Para obter mais informações sobre canais de chat, consulte Criação e integração de canais de bate-papo para respondentes no Incident Manager.

Para especificar um canal de chat de resposta a incidentes
  1. Em Canal de bate-papo, selecione um canal de AWS Chatbot bate-papo em que os respondentes possam se comunicar durante um incidente.

    dica

    Para criar um novo canal de bate-papo em AWS Chatbot, escolha Configurar novo cliente de Chatbot.

  2. Para SNStópicos do canal Chat, escolha SNS tópicos adicionais para publicar durante o incidente. Adicionar SNS tópicos em vários Regiões da AWS aumenta a redundância caso uma região esteja inativa no momento do incidente.

  3. Continue selecionando os contatos, as escalas de plantão e os planos de escalação a serem acionados durante um incidente.

(Opcional) Selecione recursos a acionar na resposta a incidentes

É importante identificar os respondentes mais adequados no caso de ocorrer um incidente. Recomendamos seguir estas práticas recomendadas:

  1. Adicione escalas de plantão como canais de escalação em um plano de escalação.

  2. Escolha um plano de escalação como engajamento em um plano de resposta.

Para obter mais informações sobre contatos e planos de escalação, consulte Criação e configuração de contatos no Incident Manager e Criação de um plano de escalonamento para engajamento do respondente no Incident Manager.

Para selecionar recursos a acionar na resposta a incidentes
  1. Em Engajamentos, escolha qualquer número de planos de escalação, escalas de plantão e contatos individuais.

  2. Continue especificando se vai usar um runbook a ser executado como parte da mitigação de incidentes.

(Opcional) Especificar um runbook para mitigação de incidentes

Você pode usar runbooks da AWS Systems Manager Automation, um recurso da AWS Systems Manager, para automatizar tarefas comuns de aplicativos e infraestrutura em seu Nuvem AWS ambiente.

Cada runbook define um fluxo de trabalho de runbook. Um fluxo de trabalho de runbook inclui as ações que o Systems Manager executa em seus nós gerenciados ou em outros tipos de AWS recursos. No Incident Manager, um runbook impulsiona a resposta e a mitigação de incidentes.

Para obter mais informações sobre como usar runbooks em planos de resposta, consulte Integrando runbooks do Systems Manager Automation no Incident Manager para remediação de incidentes.

Para especificar um runbook para mitigação de incidentes:

  1. Em Runbook, realize um destes procedimentos:

  2. Na área Parâmetros, forneça todos os parâmetros solicitados para o runbook selecionado.

    Os parâmetros disponíveis são aqueles especificados pelo runbook. Um runbook pode exigir parâmetros diferentes dos outros. Alguns parâmetros podem ser obrigatórios e outros opcionais.

    Em muitos casos, você pode optar por inserir manualmente um valor estático para um parâmetro, como uma lista de EC2 instâncias da AmazonIDs. Você também pode permitir que o Incident Manager forneça os valores dos parâmetros que foram gerados dinamicamente por um incidente.

  3. (Opcional) Para AutomationAssumeRole, especifique a função AWS Identity and Access Management (IAM) a ser usada. Esse perfil deve ter as permissões necessárias para executar os comandos individuais especificados no runbook.

    nota

    Se não for especificado AssumeRole, o Incident Manager tentará usar o perfil de serviço do Runbook para executar os comandos individuais especificados no runbook.

    Escolha uma das seguintes opções:

    • Insira ARN o valor — Insira manualmente o nome de recurso da Amazon (ARN) de um AssumeRole, no formatoarn:aws:iam::account-id:role/assume-role-name. Por exemplo, arn:aws:iam::123456789012:role/MyAssumeRole.

    • Usar perfil de serviço existente: escolha um perfil com as permissões necessárias em uma lista de perfis existentes em sua conta.

    • Crie uma nova função de serviço — Escolha entre as políticas AWS gerenciadas para anexar à sua AssumeRole. Depois de selecionar essa opção, em políticas gerenciadas do AWS , escolha uma ou mais políticas na lista.

      Você pode aceitar o nome padrão sugerido para o novo perfil ou pode escolher um nome que preferir.

      nota

      Esse novo perfil de serviço do Runbook está associado ao runbook específico que você selecionou. Ele não pode ser usado com runbooks diferentes. Isso ocorre porque a seção Recursos da política não suportará outros runbooks.

  4. Para a função de serviço do Runbook, especifique a IAM função a ser usada para fornecer as permissões necessárias para acessar e iniciar o fluxo de trabalho do próprio runbook.

    No mínimo, o perfil deve permitir a ação ssm:StartAutomationExecution para seu runbook específico. Para que o runbook funcione em várias contas, o perfil também deve permitir a ação sts:AssumeRole do perfil do AWS-SystemsManager-AutomationExecutionRole criado durante Gerenciando incidentes em todas Contas da AWS as regiões no Incident Manager.

    Escolha uma das seguintes opções:

    • Criar novo perfil de serviço: o Incident Manager cria um perfil de serviço do runbook para você com as permissões mínimas necessárias para iniciar o fluxo de trabalho do runbook.

      Em Nome do perfil, você pode aceitar o nome padrão sugerido ou pode inserir um nome que preferir. Recomendamos usar o nome sugerido ou manter o nome do runbook no nome. Isso ocorre porque o novo AssumeRole está associado ao runbook específico que você selecionou e pode não incluir as permissões necessárias para outros runbooks.

    • Use a função de serviço existente — Uma IAM função que você ou o Gerente de Incidentes criou anteriormente concede as permissões necessárias.

      Em Nome do perfil, selecione o nome do perfil existente a usar.

  5. Expanda Opções adicionais e escolha uma das opções a seguir para especificar Conta da AWS onde o fluxo de trabalho do runbook deve ser executado.

    • Conta do proprietário do plano de resposta — inicie o fluxo de trabalho do runbook na pessoa Conta da AWS que o criou.

    • Conta afetada: inicie o fluxo de trabalho do runbook na conta que iniciou ou relatou o incidente.

      Escolha Conta impactada ao usar o Incident Manager em cenários entre contas e o runbook precisa acessar recursos na conta afetada para poder fazer as correções.

  6. Continue integrando opcionalmente um PagerDuty serviço ao plano de resposta.

(Opcional) Integração de um PagerDuty serviço ao plano de resposta

Para integrar um PagerDuty serviço ao plano de resposta

Quando você integra o Incident Manager com PagerDuty, PagerDuty cria um incidente correspondente sempre que o Incident Manager cria um incidente. O incidente em PagerDuty usa o fluxo de trabalho de paginação e as políticas de escalonamento que você definiu lá, além das do Incident Manager. PagerDuty anexa eventos do cronograma do Incident Manager como notas sobre seu incidente.

  1. Expanda Integrações de terceiros e escolha a caixa de seleção Ativar PagerDuty integração.

  2. Em Selecionar segredo, selecione o segredo em AWS Secrets Manager que você armazena as credenciais para acessar sua PagerDuty conta.

    Para obter informações sobre como armazenar suas PagerDuty credenciais em um segredo do Secrets Manager, consulteArmazenando credenciais de PagerDuty acesso em segredo AWS Secrets Manager.

  3. Para PagerDuty atendimento, selecione o serviço da sua PagerDuty conta em que você deseja criar o PagerDuty incidente.

  4. Continue adicionando tags opcionais e criando o plano de resposta.

Como adicionar tags e criar o plano de resposta

Como adicionar tags e criar o plano de resposta
  1. (Opcional) Na área Tags, aplique um ou mais pares de nome/valor de chave de tag ao plano de resposta.

    Tags são metadados opcionais que você atribui a um recurso. Usando tags, você pode categorizar um recurso de diferentes formas, como por finalidade, proprietário ou ambiente. Por exemplo, você pode marcar um plano de resposta para identificar o tipo de incidente ao qual ele se destina a mitigar, os tipos de canais de escalação que ele contém ou o plano de escalação que será associado a ele. Para obter mais informações sobre como marcar recursos do Incident Manager, consulte Marcando recursos no Incident Manager.

  2. Selecione Criar plano de resposta.