Como realizar uma análise pós-incidente no Incident Manager - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como realizar uma análise pós-incidente no Incident Manager

A análise pós-incidente orienta você na identificação de melhorias na resposta a incidentes, incluindo o tempo de detecção e mitigação. Uma análise também pode ajudá-lo a entender a causa raiz dos incidentes. O Incident Manager cria itens de ação recomendados que você pode usar para melhorar sua resposta a incidentes.

Benefícios de uma análise pós-incidente
  • Melhore a resposta a incidentes

  • Entenda a causa raiz do problema

  • Aborde as causas raízes com itens de ação de entrega

  • Analise o impacto dos incidentes

  • Capture e compartilhe aprendizados em uma organização

Para que não usar uma análise

Uma análise é irrepreensível e não chama as pessoas pelo nome.

“Independentemente do que descobrimos, entendemos e realmente acreditamos que todos fizeram o melhor trabalho possível, considerando o que sabiam na época, suas habilidades e aptidões, os recursos disponíveis e a situação em questão.” - Norm Kerth, “Project Retrospectives: A Handbook for Team Review” (“Retrospectivas de projetos: um manual para análise de equipes”)

Detalhes da análise

A página de detalhes da análise orienta você na coleta de informações, na avaliação de melhorias e na criação de itens de ação. A página de detalhes da análise é semelhante aos detalhes do incidente, com algumas diferenças importantes, como métricas históricas, cronograma editável e perguntas para melhorar futuros incidentes.

Visão geral

A visão geral é um resumo do incidente. Esse resumo inclui o histórico, o que ocorreu, por que aconteceu, como foi mitigado, a duração e os principais itens de ação para evitar que o incidente aconteça novamente. A visão geral é de alto nível. Você explorará mais detalhes na guia Perguntas da análise.

Métricas

Use a guia de métricas para visualizar as principais métricas em seu aplicativo durante o incidente. Você pode adicionar aqui gráficos de métricas que tenham uma ou mais métricas representadas no mesmo gráfico. As métricas usadas durante um incidente são preenchidas automaticamente nessa guia. Recomendamos que você adicione uma descrição, título e anotações dos principais pontos temporais durante o incidente.

Alguns pontos temporais chave que você pode considerar ao analisar um gráfico métrico:

  • Alteração na implantação

  • Alteração de configuração

  • Hora de início do incidente

  • Hora do alarme

  • Hora do engajamento

  • Hora de início da mitigação

  • Hora de resolução do incidente

Limitações
  • Os alarmes e expressões métricas do CloudWatch não são importados de um incidente.

  • As métricas que estão em uma região que o Incident Manager não suporta não são importadas do incidente.

  • As métricas nas contas de aplicativos exigem a configuração do CloudWatch-CrossAccountSharingRole antes da criação da análise. Para obter mais informações sobre o perfil, consulte o console Cross-Account Cross-Region CloudWatch no guia do usuário do CloudWatch.

Cronograma

Descreva os principais momentos no cronograma à medida que você se aprofunda na compreensão do incidente. O cronograma de incidentes é preenchido automaticamente nessa guia. Você pode excluir pontos temporais que não são relevantes para a análise. Você também pode adicionar e editar pontos temporais para descrever o incidente e seu impacto com mais precisão.

Use a guia Cronograma para responder às perguntas que você encontra na guia Perguntas sobre a resposta ao incidente.

Perguntas

Use as perguntas do Incident Manager para melhorar o tempo de resolução de incidentes em seu aplicativo e reduzir a ocorrência de incidentes. Ao responder às perguntas, atualize as guias Métricas e Cronograma para verificar a precisão. As perguntas se concentram nesses aspectos principais da resposta a incidentes:

  • Detecção — Você poderia melhorar o tempo de detecção? Há atualizações nas métricas e alarmes que detectariam o incidente mais cedo?

  • Diagnóstico — Você pode melhorar o tempo de diagnóstico? Há atualizações em seus planos de resposta ou planos de escalação que envolveriam os respondentes corretos mais cedo?

  • Mitigação — Você pode melhorar o tempo de mitigação? Há etapas do runbook que você poderia adicionar ou melhorar?

  • Prevenção — Você pode evitar que futuros incidentes ocorram? Para descobrir as causas básicas de um incidente, a Amazon usa a abordagem dos 5 porquês na investigação de problemas.

Ações

O Incident Manager cria itens de ação recomendados para você revisar ao responder às perguntas. Você pode optar por aceitar e concluir essas ações nessa guia ou pode ignorá-las. Você pode revisar itens de ação dispensados escolhendo Itens de ação dispensados. Os itens de ação são um tipo de OpsItem vinculado à análise e ao incidente no OpsCenter.

Lista de verificação

Antes de fechar uma análise, use a lista de verificação para revisar as ações que um respondente deve tomar. À medida que os respondentes concluem ações na lista de verificação, o ícone ao lado da ação muda de uma elipse para uma marca de seleção, indicando que a ação foi concluída. Se você não tiver concluído os itens da lista de verificação, o Incident Manager exibirá uma mensagem para confirmar que o respondente deseja fechar a análise sem concluí-la.

Modelos de análise

Um modelo de análise fornece um conjunto de perguntas que se aprofundam na causa raiz dos incidentes. Você pode usar suas respostas a essas perguntas para melhorar o desempenho do aplicativo e a resposta a incidentes.

AWS modelo padrão

O Incident Manager fornece um modelo padrão de perguntas com base nas melhores práticas de resposta a incidentes e análise de problemas AWS, intitulado AWSIncidents-PostIncidentAnalysisTemplate.

Criar um modelo de análise

Recomendamos que você use o AWSIncidents-PostIncidentAnalysisTemplate modelo padrão e adicione perguntas ou seções adicionais que sejam apropriadas para seus casos de uso. Crie modelos de análise com base no modelo padrão Use esse modelo como ponto de partida para criar modelos de análise em sua conta de gerenciamento. Em seguida, você pode duplicar seus modelos de análise em cada Região em que ativou o Incident Manager.

Criar um modelo de análise
  1. Chame a GetDocument ação e use seu Name parâmetro para fazer o download AWSIncidents-PostIncidentAnalysisTemplate. Para obter mais informações sobre a GetDocument sintaxe, consulte Referência da API do Systems Manager.

  2. O conteúdo da resposta contém os blocos de construção JSON para a análise. Use os blocos de construção da pergunta para inserir perguntas adicionais na análise. Recomendamos que você adicione perguntas ou seções na seção Incident questions.

  3. Para criar o novo modelo, use a operação CreateDocument com o JSON atualizado da etapa anterior. Você deve incluir o seguinte, onde Analysis_Template_Name é o nome do seu modelo,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Criar uma análise

  1. Para criar uma análise, escolha Criar análise na página de detalhes do incidente de um incidente fechado.

  2. Escolha o modelo de análise a partir do qual criar essa análise e insira um nome descritivo da análise.

  3. Escolha Criar.

Você pode gerar uma cópia de uma análise completa ou incompleta formatada para impressão. Você também pode salvar essa cópia como PDF. É possível imprimir uma análise de cada vez. A impressão em lote de várias análises não é compatível no momento.

Para imprimir uma análise formatada
  1. Abra o console do Incident Manager.

  2. Escolha a guia Análise.

  3. Selecione o título da análise que quer imprimir.

  4. No canto superior direito da página de detalhes da análise, escolha Imprimir.

  5. Na caixa de diálogo Imprimir análise de incidentes, limpe as seções da análise que não deseja incluir na versão impressa. Por padrão, todas as seções são selecionadas.

  6. Escolha Imprimir para abrir os controles de impressão locais do seu dispositivo.

  7. Escolha seu destino ou formato de impressão. Você pode escolher uma impressora local ou de rede ou salvar a análise em um PDF. Faça as alterações, se desejar, nas opções de impressão restantes e escolha Imprimir.

    nota

    Os Controles de impressão locais se referem à interface do usuário fornecida pelo seu navegador e dispositivo.

    Os Destinos de impressão são aqueles configurados e acessíveis a partir do seu dispositivo.