Detalhes do incidente - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detalhes do incidente

A página Detalhes do incidente fornece insights detalhados e ferramentas para você tratar um incidente. Nessa página, você pode iniciar runbooks para mitigar um incidente, adicionar notas de incidentes, envolver outros solucionadores e visualizar detalhes do incidente, como linhas do tempo, métricas, propriedades e recursos relacionados. A página Detalhes do incidente inclui as seguintes seções: banner superior, Notas do incidente e sete guias com informações e recursos adicionais. Por padrão, o banner superior e as seções Notas do incidente são exibidas em todas as páginas Detalhes do incidente.

A página Detalhes do incidente inclui 7 guias com informações de um incidente.

Este tópico explica os elementos da página Detalhes do incidente e as ações que você pode executar na página.

Banner superior

O banner superior na página de detalhes de cada incidente inclui as seguintes informações:

  • Status: o status atual de um incidente pode ser Aberto ou Resolvido.

  • Impacto: o impacto do incidente no ambiente. Pode ser alto, médio ou baixo. Para alterar o impacto de um incidente, escolha Editar propriedades.

  • Canal de chat: um link para acessar o canal de chat onde você pode ver atualizações e notificações de incidentes.

  • Duração: o tempo decorrido até que um respondente resolva o incidente.

  • Runbooks: os status dos runbooks associados a esse incidente. O status pode estar aguardando entrada, bem-sucedido ou malsucedido. Se o status de um runbook for aguardando entrada, você poderá selecionar o runbook para ver os detalhes da ação. Você pode selecionar malsucedido para visualizar os runbooks no statusAtingiu o tempo limite, Falhou ou Cancelados.

  • Engajamentos: o número total de engajamentos e o status de cada engajamento. Quando você cria um engajamento, seu status é Engajado. Depois de confirmar o engajamento, o status muda de Engajado para Confirmado. O Incident Manager não oferece suporte à confirmação de engajamentos de terceiros. Esses engajamentos permanecem no status Engajado.

Você pode editar o título, o impacto e o canal de chat do incidente escolhendo Editar no canto superior direito do banner.

Notas de incidentes

O lado direito da tela exibe a seção Notas do incidente. Você pode colaborar e se comunicar com outros usuários que trabalham em um incidente usando notas. Você pode explicar as mitigações aplicadas, uma possível causa raiz identificada ou o status atual do incidente. Como prática recomendada, use a seção Notas do incidente para publicar atualizações de status e ações que você ou outras pessoas tomam em relação a um incidente. Se você precisar se comunicar com outros solucionadores em tempo real, use o canal de chat disponível no Incident Manager.

Para adicionar uma nota, escolha o botão Adicionar nota de incidente e, em seguida, insira sua nota. As notas podem conter atualizações sobre o status do incidente ou qualquer outra informação relevante que forneça visibilidade a outros usuários. Se necessário, você também pode editar ou excluir notas de incidentes.

nota

Qualquer usuário com permissão do IAM para executar as ações ssm-incidents:UpdateTimelineEvent e ssm-incidents:DeleteTimelineEvent pode editar e excluir notas. No entanto, quando você compartilha um incidente com outra conta, a política de recursos não inclui a ação ssm-incidents:DeleteTimelineEvent. Isso impede que o usuário com quem você compartilha o incidente exclua a nota. Você pode visualizar a trilha de auditoria de uma nota dos eventos do Incident Manager no console do AWS CloudTrail.

Guias

A página Detalhes do incidente tem sete guias, para facilitar para os respondentes localizarem e visualizarem informações durante um incidente. As guias exibem um contador no nome da guia, que indica o número de atualizações na guia. Para obter mais informações sobre o conteúdo de cada guia, bem como sobre as ações disponíveis, continue lendo.

Visão geral

A guia Visão geral é a página inicial dos respondentes. Ela contém o resumo do incidente, uma lista dos eventos recentes da Linha do tempo e a etapa atual do runbook.

Os respondentes usam o Resumo para acompanhar quais ações foram tomadas, os resultados de quaisquer alterações, possíveis próximas etapas e informações sobre o impacto do incidente. Para atualizar o resumo, escolha Editar no canto superior direito da seção Resumo.

Importante

Se vários respondentes estiverem editando o campo de resumo simultaneamente, o respondente que enviou suas edições por último sobrescreverá todas as outras entradas.

A seção Eventos de linha do tempo recentes contém uma Linha do tempo preenchida pelo Incident Manager com os cinco eventos mais recentes. Use esta seção para entender o status do incidente e o que ocorreu recentemente. Para ver uma Linha do tempo completa, vá até a guia Linha do tempo.

A página de visão geral também exibe a etapa Runbook atual. Essa etapa pode ser uma etapa automática em execução no ambiente AWS ou pode ser um conjunto de instruções manuais para os respondentes. Para ver o runbook completo, incluindo as etapas anteriores e futuras, escolha a guia Runbook.

Diagnóstico

A guia Diagnóstico contém informações vitais sobre seus aplicativos e sistemas hospedados na AWS, incluindo informações sobre métricas e, se habilitada, descobertas.

Como trabalhar com métricas

O Incident Manager usa o Amazon CloudWatch para preencher os gráficos de métricas e alarmes encontrados nessa guia. Para saber mais sobre as práticas recomendadas de gerenciamento de incidentes para definir alarmes e métricas, consulte Monitorar na seção Planejamento de incidentes deste guia do usuário.

Para adicionar métricas
  • Escolha Adicionar no canto superior direito dessa guia.

    • Para adicionar uma métrica de um painel existente do CloudWatch, escolha Do painel existente do CloudWatch.

      1. Escolha um Painel. Isso adiciona todas as métricas e alarmes que fazem parte do painel escolhido.

      2. (Opcional) Você também pode Selecionar métricas no painel para visualizar métricas específicas.

    • Adicione uma única métrica selecionando Do CloudWatch e colando uma origem de métrica. Para copiar uma origem de métrica:

      1. Abra o console do CloudWatch em https://console.aws.amazon.com/cloudwatch/.

      2. No painel de navegação, selecione Métricas.

      3. Na guia Todas as métricas, insira um termo de pesquisa no campo de pesquisa, como o nome de uma métrica ou nome do recurso e pressione Enter.

        Por exemplo, se você pesquisar a métrica CPUUtilization, verá os namespaces e as dimensões associados a essa métrica.

      4. Selecione um dos resultados da pesquisa para ver as métricas.

      5. Escolha a guia Origem e copie a origem.

Os gráficos de alarmes de métricas só podem ser adicionados aos detalhes do incidente por meio do plano de resposta relacionado ou selecionando Do painel existente do CloudWatch ao adicionar uma métrica.

Para remover métricas, escolha Remover e, em seguida, escolha as métricas que deseja remover do menu suspenso Métricas fornecido.

Como visualizar descobertas do AWS CodeDeploy e do AWS CloudFormation

Depois de habilitar Descobertas e configurar todas as permissões necessárias, todas as descobertas que possam estar relacionadas a um incidente específico serão anexadas ao incidente. Os respondentes podem ver informações sobre essas descobertas na página Detalhes do incidente.

Para ver as descobertas do CodeDeploy e do CloudFormation
  1. Abra o console do Incident Manager.

  2. Escolha o nome de um incidente a ser investigado.

  3. Na guia Diagnóstico, na área Descobertas, compare os horários de início de qualquer descoberta relatada com o horário de início do incidente.

  4. Para ver mais detalhes sobre uma descoberta, na coluna Referência, escolha o link para descoberta do CodeDeploy ou do CloudFormation.

Linha do tempo

Use a guia Linha do tempo para rastrear eventos que ocorrem durante um incidente. O Incident Manager preenche automaticamente os eventos da Linha do tempo que identificam ocorrências significativas durante o incidente. Os respondentes podem adicionar eventos personalizados com base nas ocorrências detectadas manualmente. Durante a análise pós-incidente, a guia da linha do tempo fornece informações valiosas sobre como se preparar e responder melhor aos incidentes no futuro. Para obter mais informações sobre análise pós-incidente, consulte Como realizar uma análise pós-incidente no Incident Manager.

Para adicionar um evento personalizado na linha do tempo, escolha Adicionar. Selecione uma data usando o calendário e, em seguida, insira uma hora. Todos os horários são exibidos no fuso horário local. Forneça uma breve descrição do evento que aparecerá na linha do tempo.

Para editar um evento personalizado existente, selecione o evento na linha do tempo e escolha Editar. Você pode alterar a hora, a data e a descrição dos eventos personalizados. Você só pode editar eventos personalizados.

Runbooks

A guia Runbooks da página de detalhes do incidente é onde os respondentes podem visualizar as etapas do runbook e iniciar novos runbooks.

Para iniciar um novo runbook, escolha Iniciar runbook na seção Runbooks. Use o campo de pesquisa para localizar o runbook que deseja iniciar. Forneça todos os Parâmetros necessários e a Versão do runbook que deseja usar ao iniciar o runbook. Os runbooks iniciados durante um incidente na guia Runbooks usam as permissões da conta atualmente conectada.

Para navegar até uma definição de runbook no Systems Manager, escolha o título do runbook em Runbooks. Para navegar até a instância do runbook em execução no Systems Manager, escolha os detalhes da execução em Detalhes da execução. Essas páginas exibem o modelo usado para iniciar o runbook e os detalhes específicos da instância atualmente em execução do documento de automação.

A seção Etapas do runbook exibe a lista de etapas que o runbook selecionado executa automaticamente ou que os respondentes executam manualmente. As etapas se expandem ao se tornarem a etapa atual, exibindo as informações necessárias para concluir a etapa ou os detalhes sobre o que a etapa faz. As etapas automáticas do runbook são resolvidas após a conclusão da automação. As etapas manuais exigem que os respondentes escolham Próxima etapa na parte inferior de cada etapa. Após a conclusão de uma etapa, a saída da etapa aparece como uma lista suspensa.

Para cancelar a execução de um runbook, escolha Cancelar runbook. Isso interromperá a execução do runbook e não concluirá nenhuma etapa adicional no runbook.

Engajamentos

A guia Engajamentos dos detalhes do incidente impulsiona o engajamento dos respondentes e das equipes. Nessa guia, você pode ver quem foi engajado, quem respondeu e quais respondentes serão engajados como parte de um plano de escalação. Os respondentes podem interagir com outros contatos diretamente dessa guia. Para saber mais sobre a criação de contatos e planos de escalação, consulte as seções Como trabalhar com contatos do Incident Manager e Como trabalhar com planos de escalação no Incident Manager deste guia.

Você pode configurar planos de resposta com contatos e planos de escalação para iniciar automaticamente o engajamento no início de um incidente. Para saber mais sobre como configurar planos de resposta, consulte a seção Como trabalhar com planos de resposta no Incident Manager deste guia.

Você pode encontrar informações sobre cada contato na tabela. Essa tabela inclui as seguintes informações:

  • Nome: links para a página de detalhes de contato que exibe seus métodos de contato e plano de engajamento.

  • Plano de escalação: links para o plano de escalação que envolveu o contato.

  • Fonte do contato: identifica o serviço que engajou esse contato, como o AWS Systems Manager ou o PagerDuty.

  • Engajado: exibe quando o plano engajou um contato ou quando engajar um contato como parte do plano de escalação.

  • Confirmado: mostra se o contato reconheceu o engajamento.

Para confirmar um engajamento, o respondente pode realizar um dos seguintes procedimentos:

  • Chamada telefônica: digite 1 quando solicitado.

  • SMS: responda à mensagem com o código fornecido ou insira o código fornecido na guia Engajamentos do incidente.

  • E-mail: insira o código fornecido na guia Engajamentos do incidente.

A guia Itens relacionados é usada para coletar recursos relacionados à mitigação de incidentes. Esses recursos podem ser ARNs, links para recursos externos ou arquivos enviados para buckets do Amazon S3. A tabela exibe um título descritivo e um ARN, um link ou detalhes do bucket. Antes de usar buckets do S3, revise as Práticas recomendadas de segurança do Amazon S3 no Guia do usuário do Amazon S3.

Ao carregar arquivos em um bucket do Amazon S3, o versionamento é ativado ou suspenso nesse bucket. Quando o versionamento é ativado no bucket, os arquivos carregados com o mesmo nome de um arquivo existente são adicionados como uma nova versão do arquivo. Se o versionamento for suspenso, os arquivos carregados com o mesmo nome de um arquivo existente sobrescreverão o arquivo existente. Para saber mais sobre versionamento, consulte Como usar o versionamento nos buckets do S3 no Guia do usuário do Amazon S3.

Ao remover um item relacionado ao arquivo, o arquivo é removido do incidente, mas não é removido do bucket do Amazon S3. Para saber mais sobre como remover objetos de um bucket do Amazon S3, consulte Excluir objetos do Amazon S3 no Guia do usuário do Amazon S3.

Propriedades

A guia Propriedades fornece os seguintes detalhes sobre o incidente.

Na seção Propriedades de incidente, você pode ver o seguinte:

  • Status: descreve o status atual do incidente. O incidente pode estar Aberto ou Resolvido.

  • Horário de início: o horário em que o incidente foi criado no Incident Manager.

  • Horário da resolução: o horário em que o incidente foi resolvido no Incident Manager.

  • Nome do recurso da Amazon (ARN): o ARN do incidente. Use o ARN ao se referir ao incidente no chat ou com os comandos da AWS Command Line Interface (AWS CLI).

  • Plano de resposta: identifica o plano de resposta para o incidente selecionado. A escolha do plano de resposta abre a página de detalhes do plano de resposta.

  • OpsItem principal: identifica o OpsItem criado como o principal do incidente. Um OpSitem principal pode ter vários incidentes relacionados e itens de ação de acompanhamento. Selecionar o OpsItem principal abre a página de detalhes do OpsiTems no OpsCenter.

  • Análise: identifica a análise criada desse incidente. Crie uma análise de um incidente resolvido para melhorar seu processo de resposta a incidentes. Escolha a análise para abrir a página de detalhes da análise.

  • Proprietário: a conta na qual o incidente foi criado.

Na seção Tags, você pode visualizar e editar as chaves e os valores das tags associados ao registro do incidente. Para obter mais informações sobre tags no Incident Manager, consulte Marcando recursos no Incident Manager.