Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Surveiller les ressources de charge de travail
Les journaux et les métriques sont des outils puissants qui permettent de mieux comprendre l’état de santé de votre charge de travail. Vous pouvez configurer votre charge de travail pour qu’elle surveille les journaux et les métriques et envoie des notifications lorsque des seuils sont franchis ou que des événements importants se produisent. La surveillance permet à votre charge de travail de reconnaître quand des seuils de faibles performances sont franchis ou quand des défaillances se produisent, afin d’y répondre par une récupération automatique.
La surveillance est essentielle pour s’assurer que vous respectez vos exigences en matière de disponibilité. Votre surveillance doit détecter efficacement les pannes. La pire des pannes est « silencieuse ». La fonctionnalité devient inopérante, mais il est impossible de détecter la panne, sinon indirectement. Vos clients sont informés avant vous. La fonction d’alerte en cas de problèmes est l’une des principales raisons de votre surveillance. Vos alertes doivent être séparées autant que possible de vos systèmes. Si votre interruption de service supprime votre capacité d’alerte, cela rallongera votre période d’interruption.
Chez AWS, nous instrumentons nos applications à plusieurs niveaux. Nous enregistrons la latence, les taux d’erreurs et la disponibilité pour chaque requête, pour toutes les dépendances et pour les opérations clés du processus. Nous enregistrons également des métriques sur le bon fonctionnement. Cela nous permet de voir les problèmes imminents avant qu’ils se produisent. Nous ne prenons pas seulement en compte la latence moyenne. Nous nous concentrons davantage sur la latence hors norme, comme les 99,9e et 99,99e centiles. En effet, si une requête sur 1 000 ou 10 000 est lente, cela reste une mauvaise expérience. Ainsi, si votre moyenne est acceptable, mais qu’une requête sur 100 entraîne une latence extrême, un problème peut survenir lorsque votre trafic augmente.
La surveillance au sein d’AWS comporte quatre phases distinctes :
-
Génération : surveillance de tous les composants de la charge de travail
-
Agrégation : définition et calcul des métriques
-
Traitement et alarmes en temps réel : envoi de notifications et automatisation des réponses
-
Stockage et analyse
Bonnes pratiques
REL06-BP01 Surveiller tous les composants pour la charge de travail (génération)
REL06-BP03 Envoyer des notifications (traitement en temps réel et alarme)
REL06-BP04 Automatiser les réponses (traitement en temps réel et alarmes)
REL06-BP06 Passer régulièrement en revue la portée et les métriques de surveillance
REL06-BP07 Surveillez le end-to-end suivi des demandes via votre système