O que é o AWS Systems Manager Incident Manager? - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O que é o AWS Systems Manager Incident Manager?

O Incident Manager, um recurso do AWS Systems Manager, fornece um console de gerenciamento de incidentes que ajuda você a mitigar e se recuperar de incidentes que afetam suas aplicações hospedadas na AWS.

No contexto de AWS, um incidente é qualquer interrupção ou redução não planejada na qualidade dos serviços que pode ter um impacto significativo nas operações comerciais. Portanto, é crucial que as organizações estabeleçam uma estratégia de resposta para mitigar e se recuperar de incidentes com eficiência e implementem ações para evitar futuros incidentes.

O Incident Manager ajuda a reduzir o tempo de resolução de incidentes ao:

  • Fornecer planos automatizados para engajar com eficiência as pessoas responsáveis por responder aos incidentes.

  • Fornecer dados relevantes de solução de problemas.

  • Habilitar ações de resposta automatizadas usando runbooks de automação predefinidos.

  • Fornecer métodos para colaborar e se comunicar com todas as partes interessadas.

Os recursos e fluxos de trabalho incorporados ao Incident Manager são baseados nas melhores práticas de resposta a incidentes que a Amazon vem desenvolvendo quase desde o início. O Incident Manager se integra com Serviços da AWS Amazon CloudWatch, AWS CloudTrail, AWS Systems Manager e Amazon EventBridge.

Principais componentes e recursos

Esta seção descreve os recursos do Incident Manager que você usa para configurar seus planos de resposta a incidentes.

Plano de resposta

Um plano de resposta funciona como um modelo que define o que deve estar em vigor quando ocorre um incidente. Ele inclui informações como:

  • Quem é obrigado a responder quando ocorre um incidente.

  • A resposta automatizada estabelecida para mitigar o incidente.

  • A ferramenta de colaboração que os respondentes devem usar para se comunicar e receber notificações automáticas sobre o incidente.

Detecção de incidente

Você pode configurar alarmes do Amazon CloudWatch e eventos do Amazon EventBridge para criar incidentes quando condições ou alterações que afetam seus AWS recursos forem detectadas.

Suporte à automação do Runbook

Você pode iniciar runbooks de automação a partir do Incident Manager para automatizar sua resposta crítica aos incidentes e fornecer etapas detalhadas aos primeiros respondentes.

Engajamento e escalonamento

Um plano de engajamento especifica que todos devem ser notificados sobre cada incidente exclusivo. Você pode especificar contatos individuais adicionados ao Incident Manager ou especificar uma agenda de plantão criada no Incident Manager. Os planos de engajamento também especificam um caminho de escalonamento para ajudar a garantir a visibilidade entre as partes interessadas e a participação ativa durante o processo de resposta a incidentes.

Agenda de plantão

Uma agenda de plantão no Incident Manager consiste em uma ou mais rotações que você cria para a agenda. Para cada rotação, é possível incluir até 30 contatos. Quando adicionado a um plano de escalonamento ou plano de resposta, a agenda de plantão define quem é notificado quando ocorre um incidente que requer intervenção do respondente. As agendas de plantão ajudam a garantir a cobertura completa e redundante 24 horas por dia, 7 dias por semana, conforme necessário para sua resposta a incidentes.

Colaboração ativa

Os respondentes de incidentes respondem ativamente aos incidentes por meio da integração com o AWS Chatbot cliente. AWS Chatbot suporta a criação de canais de bate-papo para o Incident Manager que usa Slack, Microsoft Teams, ou Amazon Chime. Os respondentes podem se comunicar diretamente uns com os outros, receber notificações automatizadas sobre incidentes e, em Slack e Microsoft Teams, executar diretamente algumas operações da interface de linha de comandos (CLI) do Incident Manager.

Diagnóstico do incidente

Os respondentes podem visualizar informações atualizadas no console do Incident Manager durante um incidente. Com base nas mudanças nas informações, os respondentes podem, então, criar itens de acompanhamento e corrigi-los usando runbooks de automação.

Descobertas de outros serviços

Para dar suporte aos respondentes no diagnóstico de incidentes, ative o atributo Descobertas no Incident Manager. As descobertas são informações sobre AWS CodeDeploy implantações e AWS CloudFormation atualizações de pilha que ocorreram na época de um incidente e que envolveram um ou mais recursos provavelmente relacionados ao incidente. Ter essas informações economiza tempo na avaliação de possíveis causas, o que pode reduzir o tempo médio de recuperação (MTTR) de um incidente.

Análise pós-incidente

Depois que um incidente é resolvido, você usa uma análise pós-incidente para identificar melhorias na resposta a incidentes, incluindo o tempo de detecção e mitigação. Uma análise também pode ajudá-lo a entender a causa raiz dos incidentes. O Incident Manager cria itens de ação de acompanhamento recomendados que você pode usar para melhorar sua resposta a incidentes.

Benefícios do uso do Incident Manager

Conheça os benefícios de usar o Incident Manager nas operações de detecção e resposta a incidentes.

Esta seção descreve as vantagens que sua organização pode obter ao implementar um plano de resposta do Incident Manager.

Diagnostique problemas de forma eficiente e imediata

Os alarmes do Amazon CloudWatch e os eventos do Amazon EventBridge configurados podem criar incidentes automaticamente quando há alguma interrupção não planejada ou redução na qualidade dos seus serviços.

Os alarmes do CloudWatch detectam e relatam quando há alterações no valor da métrica ou expressão relativa a um limite por um número de períodos. Os eventos do EventBridge são criados como resultado de uma alteração em um ambiente, aplicativo ou serviço que você especificou em uma regra do EventBridge. Ao criar um alarme ou evento, você pode especificar uma ação para um incidente a ser criado no Incident Manager e o plano de resposta apropriado para facilitar o engajamento, a escalação e a mitigação do incidente.

O Incident Manager fornece a capacidade de coletar e rastrear automaticamente as métricas relacionadas a um incidente, por meio do uso das métricas do CloudWatch. Além das métricas automatizadas geradas para o incidente quando ele é criado por meio de um alarme do CloudWatch, você pode adicionar métricas manualmente em tempo real para fornecer contexto e dados adicionais aos respondentes em um incidente.

Use o cronograma de incidentes do Incident Manager para exibir pontos de interesse em ordem cronológica. Os respondentes também podem usar a linha do tempo para adicionar eventos personalizados para descrever o que fizeram ou o que aconteceu. Os pontos de interesse automatizados incluem:

  • Um alarme do CloudWatch ou uma regra do EventBridge cria um incidente.

  • As métricas de incidentes são reportadas ao Incident Manager.

  • Os respondentes estão engajados.

  • As etapas do Runbook foram concluídas com êxito.

Interaja de forma eficaz

O Incident Manager reúne os respondedores de incidentes por meio do uso de contatos, agendas de plantão, planos de escalonamento e canais de bate-papo. Você define contatos individuais diretamente no Incident Manager e especifica as preferências de contato (e-mail, SMS ou voz). Você adiciona contatos às rotações de agendamento de plantão para determinar quem está envolvido para lidar com incidentes durante um determinado período. Usando os contatos definidos e as agendas de plantão, você cria planos de escalonamento para envolver os respondentes necessários no momento certo durante um incidente.

Colabore em tempo real

A comunicação durante um incidente é a chave para uma resolução mais rápida. Usando um AWS Chatbot cliente configurado para usar Slack, Microsoft Teams, ou o Amazon Chime, você pode reunir os respondentes em seu canal de bate-papo conectado preferido, onde eles interagem diretamente com o incidente e entre si. O Incident Manager também exibe as ações em tempo real dos respondedores de incidentes no canal de bate-papo, fornecendo contexto para outras pessoas.

Automatize a restauração de serviços

O Incident Manager permite que seus respondentes se concentrem nas principais tarefas necessárias para resolver um incidente por meio do uso de runbooks de automação. No Incident Manager, os runbooks são uma série predefinida de ações tomadas para resolver um incidente. Eles combinam o poder das tarefas automatizadas com etapas manuais, conforme necessário, deixando os respondentes mais disponíveis para analisar e responder ao impacto.

Previna futuros incidentes

Usando a análise pós-incidente do Incident Manager, sua equipe pode desenvolver planos de resposta mais robustos e efetuar mudanças em seus aplicativos para evitar futuros incidentes e tempo de inatividade. A análise pós-incidente também fornece aprendizado iterativo e aprimoramento de runbooks, planos de resposta e métricas.

O Incident Manager se integra a vários outros Serviços da AWS serviços e ferramentas de terceiros para ajudá-lo a detectar e resolver incidentes, interagir indiretamente com suas operações de API e gerenciar a infraestrutura. Para obter mais informações, consulte Integrações de produtos e serviços com o Incident Manager.

Acessando o Incident Manager

Você pode acessar o Incident Manager de qualquer uma das seguintes formas:

Regiões e cotas do Incident Manager

O Incident Manager não é suportado em todos os Regiões da AWS suportados pelo Systems Manager.

Para ver informações sobre regiões e cotas do Incident Manager, consulte AWS Systems Manager Incident Manager endpoints e cotas no Referência geral da Amazon Web Services.

Preços do Incident Manager

O uso do Incident Manager é cobrado. Para mais informações, consulte AWS valores do Systems Manager.

nota

Outros Serviços da AWS, AWS conteúdos e conteúdos de terceiros disponibilizados em conjunto com este serviço podem estar sujeitos a cobranças separadas e regidos por termos adicionais.

Para obter uma visão geral do Trusted Advisor, um serviço que ajuda você a otimizar os custos, a segurança e a performance do AWS ambiente, consulte AWS Trusted Advisor no AWS Support Manual do usuário.