REL06-BP06 Revisar regularmente o escopo e as métricas de monitoramento
Revise frequentemente a maneira como o monitoramento da workload é implementado e atualize-o à medida que a workload e a arquitetura evoluem. Auditorias regulares do monitoramento ajudam a reduzir o risco de indicadores de problemas perdidos ou negligenciados e colaboram ainda mais para que a workload atinja as metas de disponibilidade.
O monitoramento eficaz está ancorado nas principais métricas de negócios, que evoluem à medida que suas prioridades comerciais mudam. Seu processo de análise de monitoramento deve enfatizar os indicadores de nível de serviço (SLIs) e incorporar insights da infraestrutura, das aplicações, dos clientes e dos usuários.
Resultado desejado: você tem uma estratégia de monitoramento eficaz que é regularmente revisada e atualizada periodicamente, bem como após quaisquer eventos ou mudanças significativas. Você verifica se os principais indicadores de integridade da aplicação ainda são relevantes à medida que a workload e os requisitos de negócios evoluem.
Práticas comuns que devem ser evitadas:
-
Coletar apenas as métricas padrão.
-
Definir uma estratégia de monitoramento, mas nunca revisá-la.
-
Não discutir o monitoramento quando alterações importantes são implantadas.
-
Confiar em métricas desatualizadas para determinar a integridade da workload.
-
Equipes de operações sobrecarregadas com alertas falso-positivos devido a métricas e limites desatualizados.
-
Faltar observabilidade dos componentes da aplicação que não estão sendo monitorados.
-
Concentrar-se apenas em métricas técnicas de baixo nível e excluir métricas de negócios no monitoramento.
Benefícios de implementar essa prática recomendada: ao revisar regularmente seu monitoramento, você pode antecipar possíveis problemas e verificar se é capaz de detectá-los. Ela também permite que você descubra pontos cegos que pode ter perdido durante as avaliações anteriores, o que melhora ainda mais sua capacidade de detectar problemas.
Nível de risco exposto se esta prática recomendada não for estabelecida: Médio
Orientação para implementação
Analise as métricas e o escopo do monitoramento durante seu processo de revisão de prontidão operacional (ORR). Realize revisões periódicas de prontidão operacional em um cronograma consistente para avaliar se há alguma lacuna entre sua workload atual e o monitoramento que você configurou. Estabeleça um ritmo regular para revisões de desempenho operacional e compartilhamento de conhecimento a fim de aprimorar sua capacidade de obter um desempenho superior das equipes operacionais. Valide se os limites de alerta existentes ainda são adequados e verifique as situações em que as equipes operacionais estão recebendo alertas falso-positivos ou não estão monitorando aspectos da aplicação que devem ser monitorados.
O Resilience Analysis Framework fornece orientações úteis que podem ajudar você a navegar pelo processo. O foco do framework é identificar possíveis modos de falha e os controles preventivos e corretivos que você pode usar para mitigar o impacto deles. Esse conhecimento pode ajudar você a identificar as métricas e os eventos certos para monitorar e alertar.
Etapas de implementação
-
Programe e realize revisões regulares dos painéis da workload. É possível ter cadências diferentes para a profundidade de inspeção.
-
Inspecione as tendências nas métricas. Compare os valores das métricas com os valores históricos para ver se há tendências que possam indicar algo que precise ser investigado. Os exemplos incluem o aumento da latência, diminuição da função primária de negócios e aumento das respostas a falhas.
-
Verifique se há discrepâncias e anomalias em suas métricas, que podem ser mascaradas por médias ou medianas. Examine os valores mais altos e mais baixos durante o período e investigue as causas das observações que estão muito fora dos limites normais. À medida que você continua a remover essas causas, pode estreitar os limites das métricas esperadas em resposta à consistência aprimorada do desempenho da workload.
-
Procure mudanças bruscas no comportamento. Uma mudança imediata na quantidade ou na direção de uma métrica pode indicar que houve uma alteração na aplicação ou fatores externos que talvez você precise para adicionar e rastrear outras métricas.
-
Analise se a estratégia de monitoramento atual permanece relevante para a aplicação. Com base em uma análise de incidentes anteriores (ou no Resilience Analysis Framework), avalie se há aspectos adicionais da aplicação que devem ser incorporados ao escopo de monitoramento.
-
Analise suas métricas de monitoramento de usuários reais (RUM) para determinar se há alguma lacuna na cobertura da funcionalidade da aplicação.
-
Revise seu processo de gerenciamento de alterações. Atualize seus procedimentos, se necessário, para incluir uma etapa de análise de monitoramento que deve ser executada antes de você aprovar uma alteração.
-
Implemente a revisão de monitoramento como parte da revisão de prontidão operacional e dos processos de correção de erro.
Recursos
Práticas recomendadas relacionadas
Documentos relacionados: