Monitoramento da produção - Amazon DynamoDB

Monitoramento da produção

Você deve estabelecer uma referência de performance normal do DAX em seu ambiente, medindo a performance em vários momentos e em diferentes condições de carga. Ao monitorar o DAX, você deve pensar na possibilidade de armazenar os dados históricos de monitoramento. Esses dados armazenados fornecem a você uma linha de base com a qual comparar os dados de desempenho atuais, identificar padrões normais e anomalias de desempenho e criar métodos para solucionar problemas.

Para estabelecer uma linha de base, você deve monitorar, no mínimo, os seguintes itens durante o teste de carga e na produção:

  • Utilização da CPU e solicitações limitadas, para que seja possível determinar se é necessário usar um tipo de nó maior no cluster. A utilização da CPU do cluster está disponível por meio da métrica CPUUtilization do CloudWatch. A estatística média dessa métrica fornece uma visão da utilização média da CPU em todos os nós do cluster. Para decisões de escalabilidade de cluster, recomendamos que você use a estatística máxima, que é a utilização máxima em todos os nós.

    nota

    A AWS melhorou o detalhamento da métrica CPUUtilization. Você pode observar alterações na métrica entre 17/5/2024 e 22/6/2024.

  • A latência da operação (medida do lado do cliente) deve permanecer consistente dentro dos requisitos de latência da aplicação.

  • As taxas de erro devem permanecer baixas, como pode ser visto nas métricas ErrorRequestCount, FaultRequestCount e FailedRequestCount do CloudWatch.

  • Consumo de bytes de rede, para que você possa determinar se deve usar mais nós ou um tipo de nó maior no cluster. Para monitorar o consumo, é possível definir alertas nas métricas BaselineNetworkBytesInUtilization e BaselineNetworkBytesOutUtilization disponíveis no CloudWatch, que indicam o consumo percentual da largura de banda da rede disponível para seu tipo de instância, para tráfego de entrada e de saída, respectivamente.

  • Utilização da memória cache e tamanho da remoção, para que você possa determinar se o tipo de nó do cluster tem memória suficiente para manter o conjunto de trabalho e, se não, mudar para um tipo de nó maior.

    nota

    No caso de um grande número de falhas e gravações no cache, a utilização da memória cache pode aumentar em até 100% e causar tempo de inatividade na disponibilidade.

  • Conexões de cliente, para que você possa monitorar todos os picos inexplicáveis em conexões com o cluster.