OPS08-BP04 Criar alertas acionáveis - Pilar Excelência operacional

OPS08-BP04 Criar alertas acionáveis

Detectar e responder prontamente aos desvios no comportamento da sua aplicação é crucial. É essencial reconhecer quando os resultados baseados em indicadores-chave de performance (KPIs) estão em risco ou quando surgem anomalias inesperadas. Basear alertas em KPIs garante que os sinais que você recebe estejam diretamente vinculados ao impacto comercial ou operacional. Essa abordagem de alertas acionáveis promove respostas proativas e ajuda a manter a performance e a confiabilidade do sistema.

Resultado desejado: receba alertas imediatos, relevantes e acionáveis para rápida identificação e mitigação de possíveis problemas, especialmente quando os resultados dos KPI estão em risco.

Práticas comuns que devem ser evitadas:

  • A configuração de muitos alertas não críticos gera fadiga de alertas.

  • A não priorização de alertas com base em KPIs dificulta a compreensão do impacto comercial dos problemas.

  • A não abordagem das causas-raiz ocasiona alertas repetitivos para o mesmo problema.

Benefícios de implementar esta prática recomendada:

  • Redução da fadiga de alertas ao se concentrar em alertas acionáveis e relevantes.

  • Maior disponibilidade e confiabilidade do sistema por meio da detecção e mitigação proativas de problemas.

  • Colaboração em equipe aprimorada e resolução mais rápida de problemas por meio da integração com ferramentas conhecidas de alerta e comunicação.

Nível de risco exposto se esta prática recomendada não for estabelecida: Alto

Orientação para implementação

Para criar um mecanismo de alerta eficaz, é fundamental usar métricas, logs e dados de rastreamento que sinalizem quando os resultados com base nos KPIs estão em risco ou quando anomalias são detectadas.

Etapas de implementação

  1. Determine indicadores-chave de performance (KPIs): identifique KPIs da sua aplicação. Os alertas devem estar vinculados a esses KPIs para refletir com precisão o impacto nos negócios.

  2. Implemente a detecção de anomalias:

  3. Implemente alertas acionáveis: crie alertas que forneçam informações adequadas para ação imediata.

    1. Monitore eventos do AWS Health com as regras do Amazon EventBridge ou integre-se programaticamente à AWS Health API para automatizar ações ao receber eventos do AWS Health. Podem ser ações gerais, como enviar todas as mensagens planejadas de eventos do ciclo de vida para uma interface de chat, ou ações específicas, como o início de um fluxo de trabalho em uma ferramenta de gerenciamento de serviços de TI.

  4. Reduza a fadiga dos alertas: minimize os alertas não críticos. Quando as equipes se tornam sobrecarregadas com vários alertas insignificantes, elas podem não perceber problemas críticos, o que diminui a eficácia geral do mecanismo de alerta.

  5. Configure alarmes compostos: use os alarmes compostos do Amazon CloudWatch para consolidar vários alarmes.

  6. Integre com ferramentas de alerta: incorpore ferramentas como Ops Genie e PagerDuty.

  7. Engage o AWS Chatbot: integre o AWS Chatbot para retransmitir alertas para o Amazon Chime, o Microsoft Teams e o Slack.

  8. Alerta com base em logs: use filtros de métrica de log no CloudWatch para criar alarmes com base em eventos de log específicos.

  9. Revise e repita: revisite e refine regularmente as configurações de alerta.

Nível de esforço do plano de implementação: Médio

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: