Monitoreo de la producción
Debe establecer un punto de referencia del rendimiento normal de DAX en su entorno. Para ello se mide el rendimiento en distintos momentos y bajo distintas condiciones de carga. Cuando monitoree DAX, debe tener en cuenta el almacenamiento de los datos históricos de monitoreo. Estos datos almacenados le ofrecen un punto de referencia con el que comparar los datos de rendimiento actuales, identificar los patrones de rendimiento normales y las anomalías de rendimiento, así como desarrollar métodos de resolución de problemas.
Para establecer una línea de referencia, como mínimo, debe monitorear los siguientes elementos durante las pruebas de carga y en producción.
-
La utilización de CPU y las solicitudes de limitación controlada, de modo que pueda determinar si podría necesitar utilizar un tipo de nodo mayor en el clúster. La utilización de CPU del clúster está disponible a través de la métrica
CPUUtilization
de CloudWatch. La estadística media de esta métrica proporciona una vista del uso medio de la CPU en todos los nodos del clúster. Para tomar decisiones sobre el escalado del clúster, le recomendamos que utilice la estadística máxima, que es la utilización máxima en todos los nodos.nota
AWS ha mejorado el grado de detalle de la métrica
CPUUtilization
. Es posible que se observen cambios en la métrica entre el 17 de mayo de 2024 y el 22 de junio de 2024. -
La latencia de operación (medida en el lado del cliente) debe mantenerse de forma coherente dentro de los requisitos de latencia de la aplicación.
-
Las tasas de error deben permanecer bajas, como se ve en la métricas de CloudWatch
ErrorRequestCount
,FaultRequestCount
yFailedRequestCount
. -
Consumo de bytes de red, para que pueda determinar si debe usar más nodos o un tipo de nodo más grande en el clúster. Para supervisar el consumo, puede configurar alertas en métricas
BaselineNetworkBytesInUtilization
yBaselineNetworkBytesOutUtilization
disponibles en CloudWatch, que indiquen el porcentaje de consumo del ancho de banda de la red disponible para el tipo de instancia, para el tráfico de entrada y salida, respectivamente. -
El uso de la memoria caché y el tamaño desalojado, para que pueda determinar si el tipo de nodo del clúster tiene memoria suficiente para contener el conjunto de trabajo y si no, cambiar a un tipo de nodo más grande.
nota
En caso de que se produzca un gran número de errores y escrituras en la memoria caché, el uso de la memoria caché puede aumentar hasta un 100 % y provocar un tiempo de inactividad de la disponibilidad.
-
Conexiones cliente, para que pueda monitorizar cualquier pico insólito en las conexiones con el clúster.