Monitore os recursos da workload - Pilar Confiabilidade

Monitore os recursos da workload

Logs e métricas são ferramentas avançadas para obter informações sobre a integridade da workload. Você pode configurar a workload para monitorar logs e métricas e enviar notificações quando os limites forem ultrapassados ou ocorrerem eventos significativos. O monitoramento permite que sua workload reconheça quando os limites de baixa performance são ultrapassados ou quando há falhas para que ela possa se recuperar automaticamente em resposta.

O monitoramento é essencial para garantir que você esteja cumprindo seus requisitos de disponibilidade. Seu monitoramento precisa detectar falhas de modo eficaz. O pior modo de falha é a falha "silenciosa", em que a funcionalidade não está mais ativa, mas não há como detectar isso a não ser indiretamente. Seus clientes sabem antes de você. Alertar quando problemas ocorrem é um dos principais motivos para monitorar. Seus alertas devem ser desassociados dos sistemas o máximo possível. Se a interrupção no serviço não permitir que você receba alertas, o período de interrupção será maior.

Na AWS, instrumentamos nossas aplicações em vários níveis. Registramos latência, taxas de erros e disponibilidade para cada solicitação, para todas as dependências e para as principais operações no processo. Registramos métricas de operação bem-sucedida também. Isso nos permite ver problemas iminentes antes que eles ocorram. Não consideramos apenas a latência média. Focamos ainda mais em exceções de latência, como 99,9 e 99,99 percentil. Isso ocorre porque, se uma solicitação em 1.000 ou 10.000 for lenta, isso ainda será uma experiência ruim. Também, embora sua média possa ser aceitável, se uma a cada 100 das suas solicitações causar latência extrema, isso acabará se tornando um problema à medida que seu tráfego aumentar.

O monitoramento na AWS consiste em quatro fases distintas:

  1. Geração: monitorar todos os componentes da workload

  2. Agregação: definir e calcular métricas

  3. Processamento e alarmes em tempo real: enviar notificações e automatizar respostas

  4. Armazenamento e análise