As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como realizar uma análise pós-incidente no Incident Manager
A análise pós-incidente orienta você na identificação de melhorias na resposta a incidentes, incluindo o tempo de detecção e mitigação. Uma análise também pode ajudar você a entender a causa raiz dos incidentes. O Incident Manager cria itens de ação recomendados que você pode usar para melhorar sua resposta a incidentes.
Benefícios de uma análise pós-incidente
-
Melhore a resposta a incidentes
-
Entenda a causa raiz do problema
-
Aborde as causas raízes com itens de ação de entrega
-
Analise o impacto dos incidentes
-
Capture e compartilhe aprendizados em uma organização
Para que não usar uma análise
Uma análise é irrepreensível e não chama as pessoas pelo nome.
“Independentemente do que descobrimos, entendemos e realmente acreditamos que todos fizeram o melhor trabalho possível, considerando o que sabiam na época, suas habilidades e aptidões, os recursos disponíveis e a situação em questão.” - Norm Kerth, “Project Retrospectives: A Handbook for Team Review”
Detalhes da análise
A página de detalhes da análise orienta você na coleta de informações, na avaliação de melhorias e na criação de itens de ação. A página de detalhes da análise é semelhante aos detalhes do incidente, com algumas diferenças importantes, como métricas históricas, cronograma editável e perguntas para melhorar futuros incidentes.
Visão geral
A visão geral é um resumo do incidente. Esse resumo inclui o histórico, o que ocorreu, por que aconteceu, como foi mitigado, a duração e os principais itens de ação para evitar que o incidente aconteça novamente. A visão geral é de alto nível. Você explorará mais detalhes na guia Perguntas da análise.
Metrics
Use a guia de métricas para visualizar as principais métricas em seu aplicativo durante o incidente. Você pode adicionar aqui gráficos de métricas que tenham uma ou mais métricas representadas no mesmo gráfico. As métricas usadas durante um incidente são preenchidas automaticamente nessa guia. Recomendamos que você adicione uma descrição, título e anotações dos principais pontos temporais durante o incidente.
Alguns pontos temporais chave que você pode considerar ao analisar um gráfico métrico:
-
Alteração na implantação
-
Alteração de configuração
-
Hora de início do incidente
-
Hora do alarme
-
Hora do engajamento
-
Hora de início da mitigação
-
Hora de resolução do incidente
Limitações
-
CloudWatch alarmes e expressões métricas não são importados de um incidente.
-
As métricas que estão em uma região que o Incident Manager não suporta não são importadas do incidente.
-
As métricas nas contas de aplicativos exigem a configuração do
CloudWatch-CrossAccountSharingRole
antes da criação da análise. Para obter mais informações sobre a função, consulte o CloudWatch console Cross-Account Cross-Region no guia do CloudWatch usuário.
Linha do tempo
Descreva os principais momentos no cronograma à medida que você se aprofunda na compreensão do incidente. O cronograma de incidentes é preenchido automaticamente nessa guia. Você pode excluir pontos temporais que não são relevantes para a análise. Você também pode adicionar e editar pontos temporais para descrever o incidente e seu impacto com mais precisão.
Use a guia Cronograma para responder às perguntas que você encontra na guia Perguntas sobre a resposta ao incidente.
Perguntas
Use as perguntas do Incident Manager para melhorar o tempo de resolução de incidentes em seu aplicativo e reduzir a ocorrência de incidentes. Ao responder às perguntas, atualize as guias Métricas e Cronograma para verificar a precisão. As perguntas se concentram nesses aspectos principais da resposta a incidentes:
-
Detecção: você poderia melhorar o tempo de detecção? Há atualizações nas métricas e alarmes que detectariam o incidente mais cedo?
-
Diagnóstico: você pode melhorar o tempo de diagnóstico? Há atualizações em seus planos de resposta ou planos de escalação que envolveriam os respondentes corretos mais cedo?
-
Mitigação: você pode melhorar o tempo de mitigação? Há etapas do runbook que você poderia adicionar ou melhorar?
-
Prevenção: você pode evitar que futuros incidentes ocorram? Para descobrir as causas básicas de um incidente, a Amazon usa a abordagem dos 5 porquês na investigação de problemas.
Ações
O Incident Manager cria itens de ação recomendados para você revisar ao responder às perguntas. Você pode optar por aceitar e concluir essas ações nessa guia ou pode ignorá-las. Você pode revisar itens de ação dispensados escolhendo Itens de ação dispensados. Os itens de ação são um tipo OpsItem de item vinculado à análise e ao incidente em OpsCenter.
Lista de verificação
Antes de fechar uma análise, use a lista de verificação para revisar as ações que um respondente deve tomar. À medida que os respondentes concluem ações na lista de verificação, o ícone ao lado da ação muda de uma elipse para uma marca de seleção, indicando que a ação foi concluída. Se você não tiver concluído os itens da lista de verificação, o Incident Manager exibirá uma mensagem para confirmar que o respondente deseja fechar a análise sem concluí-la.
Modelos de análise
Um modelo de análise fornece um conjunto de perguntas que se aprofundam na causa raiz dos incidentes. Você pode usar suas respostas a essas perguntas para melhorar o desempenho do aplicativo e a resposta a incidentes.
AWS modelo padrão
O Incident Manager fornece um modelo padrão de perguntas com base nas melhores práticas de resposta a AWS incidentes e análise de problemas, intituladoAWSIncidents-PostIncidentAnalysisTemplate
.
Criar um modelo de análise
Recomendamos que você use o AWSIncidents-PostIncidentAnalysisTemplate
modelo padrão e adicione perguntas ou seções adicionais que sejam apropriadas para seus casos de uso. Crie modelos de análise com base no modelo padrão Use esse modelo como ponto de partida para criar modelos de análise em sua conta de gerenciamento. Em seguida, você pode duplicar seus modelos de análise em cada Região em que ativou o Incident Manager.
Criar um modelo de análise
-
Chame a
GetDocument
ação e use seuName
parâmetro para fazer o downloadAWSIncidents-PostIncidentAnalysisTemplate
. Para obter mais informações sobre aGetDocument
sintaxe, consulte Systems Manager API Reference. -
O conteúdo da resposta contém os JSON alicerces da análise. Use os blocos de construção da pergunta para inserir perguntas adicionais na análise. Recomendamos que você adicione perguntas ou seções na seção
Incident questions
. -
Para criar o novo modelo, use a
CreateDocument
operação com a atualização JSON da etapa anterior. Você deve incluir o seguinte, onde
é o nome do seu modelo,Analysis_Template_Name
-
DocumentFormat: "JSON"
-
DocumentType: "ProblemAnalysisTemplate"
-
Name: "
Analysis_Template_Name
"
-
Criar uma análise
-
Para criar uma análise, escolha Criar análise na página de detalhes do incidente de um incidente fechado.
-
Escolha o modelo de análise a partir do qual criar essa análise e insira um nome descritivo da análise.
-
Escolha Criar.
Imprima uma análise de incidentes formatada
Você pode gerar uma cópia de uma análise completa ou incompleta formatada para impressão. Você também pode salvar essa cópia comoPDF. É possível imprimir uma análise de cada vez. A impressão em lote de várias análises não é compatível no momento.
Para imprimir uma análise formatada
-
Abra o console do Incident Manager
. -
Escolha a guia Análise.
-
Selecione o título da análise que quer imprimir.
-
No canto superior direito da página de detalhes da análise, escolha Imprimir.
-
Na caixa de diálogo Imprimir análise de incidentes, limpe as seções da análise que não deseja incluir na versão impressa. Por padrão, todas as seções são selecionadas.
-
Escolha Imprimir para abrir os controles de impressão locais do seu dispositivo.
-
Escolha seu destino ou formato de impressão. Você pode escolher uma impressora local ou de rede ou salvar a análise em umaPDF. Faça as alterações, se desejar, nas opções de impressão restantes e escolha Imprimir.
nota
Os Controles de impressão locais se referem à interface do usuário fornecida pelo seu navegador e dispositivo.
Os Destinos de impressão são aqueles configurados e acessíveis a partir do seu dispositivo.