Surveillance en production

Vous avez tout intérêt à établir une base de référence en ce qui concerne les performances normales de DAX dans votre environnement, en mesurant les performances à divers moments et dans diverses conditions de charge. Lorsque vous surveillez DAX, songez à stocker l'historique des données de surveillance. Ces données stockées constituent une référence pour comparer avec des données de performances actuelles, identifier les modèles de performance normaux et les anomalies de performance, et concevoir des méthodes pour résoudre les problèmes.

Pour établir une base de référence, vous devez au minimum surveiller les éléments suivants pendant le test de charge et en production :

Utilisation de l'UC et demandes de limitation, afin que vous puissiez déterminer si vous avez besoin d'utiliser un type de nœud plus important dans votre cluster. L'utilisation du processeur de votre cluster est disponible via la CPUUtilization CloudWatch métrique. Les statistiques moyennes de cette métrique fournissent une vue de l'utilisation moyenne du processeur sur tous les nœuds de votre cluster. Pour les décisions relatives au dimensionnement du cluster, nous vous recommandons d'utiliser la statistique maximale, qui est l'utilisation maximale sur tous les nœuds.

Note
AWS a amélioré la granularité de la CPUUtilization métrique. Il se peut que vous observiez des modifications de la métrique entre le 17 mai 2021 et le 22 juin 2021.
La latence d'opération (mesurée côté client) doit rester homogène dans les conditions de latence exigées par votre application.
Les taux d'erreur devraient rester faibles, comme le montrent les FailedRequestCount CloudWatch indicateurs ErrorRequestCountFaultRequestCount, et.
Consommation d'octets réseau, afin que vous puissiez déterminer si vous devez utiliser un plus grand nombre de nœuds ou un type de nœud plus important dans votre cluster. Pour surveiller la consommation, vous pouvez définir des alertes BaselineNetworkBytesInUtilization et BaselineNetworkBytesOutUtilization des métriques disponibles dans CloudWatch, qui indiquent le pourcentage de consommation de bande passante réseau disponible pour votre type d'instance, pour le trafic entrant et sortant respectivement.
L'utilisation de la mémoire cache et la quantité de données expulsées, afin de pouvoir déterminer si le type de nœud du cluster a suffisamment de mémoire pour contenir votre ensemble de travail. Si ce n'est pas le cas, basculez vers un type de nœud plus grand.

Note
Lorsque le nombre d‘échecs de cache et d'écritures est important, l'utilisation de la mémoire cache peut augmenter jusqu'à 100 % et entraîner des interruptions de disponibilité.
Les connexions client, de sorte que vous puissiez surveiller les pics inexpliqués dans les connexions au cluster.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d’alarmes

Journalisation des opérations DAX avec AWS CloudTrail

Surveillance en production

Note

Note