Preparação para incidentes no Incident Manager - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparação para incidentes no Incident Manager

O planejamento de um incidente começa muito antes do ciclo de vida do incidente. Como mostra a ilustração a seguir, antes de começar a responder aos incidentes, você se prepara configurando canais de bate-papo, criando planos de escalonamento, especificando contatos e determinando os runbooks de automação a serem usados na resposta a incidentes. Em seguida, use um plano de resposta que especifique como o monitoramento ocorre e se as respostas são automatizadas. Depois que a remediação for concluída, você poderá analisar o incidente e a resposta ao incidente para refinar ainda mais seu plano de resposta para futuros incidentes.

Um fluxo de trabalho do Incident Manager para se preparar, responder e aprender com incidentes.

Monitorar

Monitorar a integridade de seus aplicativos AWS hospedados é fundamental para garantir o tempo de atividade e o desempenho dos aplicativos. Ao determinar as soluções de monitoramento, considere o seguinte:

  • Criticidade do atributo: em caso de falha, qual o nível do impacto para os usuários na sequência.

  • Falhas comuns: com que frequência o sistema falha; sistemas que requerem intervenção frequente devem ser monitorados de perto.

  • Aumento da latência: qual foi o aumento ou a redução de tempo para concluir uma tarefa.

  • Métricas do lado do cliente versus lado do servidor: se há discrepância entre métricas relacionadas no cliente e no servidor.

  • Falhas de dependência: falhas para as quais sua equipe pode e deve se preparar.

Depois de criar planos de resposta, você pode usar as soluções de monitoramento para rastrear automaticamente os incidentes no momento em que eles acontecem no seu ambiente. Para obter mais informações sobre rastreamento e criação de incidentes, consulte Visualizando detalhes do incidente no console do Incident Manager.

Para obter mais informações sobre a arquitetura de aplicativos e cargas de trabalho de infraestrutura seguros, de alto desempenho, resilientes e eficientes, consulte o Well-Architected.AWS