Monitore os recursos da workload
Logs e métricas são ferramentas avançadas para obter informações sobre a integridade da workload. Você pode configurar a workload para monitorar logs e métricas e enviar notificações quando os limites forem ultrapassados ou ocorrerem eventos significativos. O monitoramento permite que sua workload reconheça quando os limites de baixa performance são ultrapassados ou quando há falhas para que ela possa se recuperar automaticamente em resposta.
O monitoramento é essencial para garantir que você esteja cumprindo seus requisitos de disponibilidade. Seu monitoramento precisa detectar falhas de modo eficaz. O pior modo de falha é a falha "silenciosa", em que a funcionalidade não está mais ativa, mas não há como detectar isso a não ser indiretamente. Seus clientes sabem antes de você. Alertar quando problemas ocorrem é um dos principais motivos para monitorar. Seus alertas devem ser desassociados dos sistemas o máximo possível. Se a interrupção no serviço não permitir que você receba alertas, o período de interrupção será maior.
Na AWS, instrumentamos nossas aplicações em vários níveis. Registramos latência, taxas de erros e disponibilidade para cada solicitação, para todas as dependências e para as principais operações no processo. Registramos métricas de operação bem-sucedida também. Isso nos permite ver problemas iminentes antes que eles ocorram. Não consideramos apenas a latência média. Focamos ainda mais em exceções de latência, como 99,9 e 99,99 percentil. Isso ocorre porque, se uma solicitação em 1.000 ou 10.000 for lenta, isso ainda será uma experiência ruim. Também, embora sua média possa ser aceitável, se uma a cada 100 das suas solicitações causar latência extrema, isso acabará se tornando um problema à medida que seu tráfego aumentar.
O monitoramento na AWS consiste em quatro fases distintas:
-
Geração: monitorar todos os componentes da workload
-
Agregação: definir e calcular métricas
-
Processamento e alarmes em tempo real: enviar notificações e automatizar respostas
-
Armazenamento e análise
Práticas recomendadas
- REL06-BP01 Monitorar todos os componentes da workload (geração)
- REL06-BP02 Definir e calcular métricas (agregação)
- REL06-BP03 Enviar notificações (processamento e alarmes em tempo real)
- REL06-BP04 Automatizar respostas (processamento e alarmes em tempo real)
- REL06-BP05 Analisar logs
- REL06-BP06 Revisar regularmente o escopo e as métricas de monitoramento
- REL06-BP07 Monitorar o rastreamento completo das solicitações por meio de seu sistema