As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparação para incidentes no Incident Manager
O planejamento de um incidente começa muito antes do ciclo de vida do incidente. Como mostra a ilustração a seguir, antes de começar a responder aos incidentes, você se prepara configurando canais de bate-papo, criando planos de escalonamento, especificando contatos e determinando os runbooks de automação a serem usados na resposta a incidentes. Em seguida, use um plano de resposta que especifique como o monitoramento ocorre e se as respostas são automatizadas. Depois que a remediação for concluída, você poderá analisar o incidente e a resposta ao incidente para refinar ainda mais seu plano de resposta para futuros incidentes.
Tópicos
- Monitorar
- Configurando conjuntos de replicação e descobertas no Incident Manager
- Criação e configuração de contatos no Incident Manager
- Gerenciando rotações de respondentes com agendamentos de plantão no Incident Manager
- Criação de um plano de escalonamento para engajamento do respondente no Incident Manager
- Criação e integração de canais de bate-papo para respondentes no Incident Manager
- Integrando runbooks do Systems Manager Automation no Incident Manager para remediação de incidentes
- Criação e configuração de planos de resposta no Incident Manager
- Identificação de possíveis causas de incidentes de outros serviços como “descobertas” no Incident Manager
Monitorar
Monitorar a integridade de seus aplicativos AWS hospedados é fundamental para garantir o tempo de atividade e o desempenho dos aplicativos. Ao determinar as soluções de monitoramento, considere o seguinte:
-
Criticidade do atributo: em caso de falha, qual o nível do impacto para os usuários na sequência.
-
Falhas comuns: com que frequência o sistema falha; sistemas que requerem intervenção frequente devem ser monitorados de perto.
-
Aumento da latência: qual foi o aumento ou a redução de tempo para concluir uma tarefa.
-
Métricas do lado do cliente versus lado do servidor: se há discrepância entre métricas relacionadas no cliente e no servidor.
-
Falhas de dependência: falhas para as quais sua equipe pode e deve se preparar.
Depois de criar planos de resposta, você pode usar as soluções de monitoramento para rastrear automaticamente os incidentes no momento em que eles acontecem no seu ambiente. Para obter mais informações sobre rastreamento e criação de incidentes, consulte Visualizando detalhes do incidente no console do Incident Manager.