REL06-BP06 Passer régulièrement en revue la portée et les métriques de surveillance - AWS Framework Well-Architected

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

REL06-BP06 Passer régulièrement en revue la portée et les métriques de surveillance

Passez fréquemment en revue la manière dont la surveillance de la charge de travail est mise en œuvre et mettez-la à jour au fur et à mesure que votre charge de travail et son architecture évoluent. Des audits réguliers de votre surveillance permettent de réduire le risque de négliger ou d’omettre des indicateurs de panne et contribuent à aider votre charge de travail à atteindre ses objectifs de disponibilité.

Un suivi efficace s’appuie sur des métriques métier clés, qui évoluent en fonction des priorités de votre entreprise. Votre processus d’examen de la surveillance doit mettre l’accent sur les indicateurs de niveau de service (SLI) et incorporer des informations exploitables provenant de votre infrastructure, de vos applications, de vos clients et de vos utilisateurs.

Résultat escompté : vous disposez d’une stratégie de surveillance efficace qui est régulièrement revue et mise à jour, ainsi qu’après tout événement ou changement important. Vous vérifiez que les indicateurs d’intégrité clés des applications restent pertinents au fur et à mesure de l’évolution de votre charge de travail et de vos exigences professionnelles.

Anti-modèles courants :

  • Vous collectez uniquement les métriques par défaut.

  • Vous configurez une stratégie de surveillance, mais vous ne la passez jamais en revue.

  • Vous ne remettez pas en question la surveillance lorsque des modifications majeures sont déployées.

  • Vous vous fiez à des métriques obsolètes pour déterminer l’état de la charge de travail.

  • Vos équipes d’exploitation sont submergées d’alertes faussement positives en raison de métriques et de seuils obsolètes.

  • Vous ne bénéficiez pas de l’observabilité des composants d’application qui ne sont pas surveillés.

  • Vous vous concentrez uniquement sur des métriques techniques de bas niveau et excluez les métriques métier de votre surveillance.

Avantages liés au respect de cette bonne pratique : lorsque vous passez régulièrement en revue votre surveillance, vous pouvez anticiper les problèmes potentiels et vérifier que vous êtes capable de les détecter. Cela vous permet également de découvrir des zones d’ombre que vous auriez pu manquer lors d’examens antérieurs, ce qui améliore encore votre capacité à détecter les problèmes.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : moyen

Directives d’implémentation

Passez en revue les métriques et la portée de la surveillance au cours de votre processus d’examen de l’état de préparation opérationnelle (ORR). Effectuez des examens périodiques de l’état de préparation opérationnelle selon un calendrier cohérent afin d’évaluer s’il existe des écarts entre votre charge de travail actuelle et la surveillance que vous avez configurée. Établissez une fréquence régulière d’examen des performances opérationnelles et de partage des connaissances afin d’améliorer votre capacité à obtenir de meilleures performances de la part de vos équipes d’exploitation. Confirmez ou non que les seuils d’alerte existants sont toujours adéquats et vérifiez les situations dans lesquelles les équipes d’exploitation reçoivent des alertes faussement positives ou ne surveillent pas les aspects de l’application qui devraient être surveillés.

Le cadre d’analyse de résilience fournit des conseils utiles qui peuvent vous aider à naviguer dans le processus. L’objectif de ce cadre est d’identifier les modes de défaillance potentiels et les contrôles préventifs et correctifs que vous pouvez utiliser pour atténuer leur impact. Ces connaissances peuvent vous aider à identifier les métriques et les événements appropriés à surveiller pour émettre des alertes.

Étapes d’implémentation

  1. Planifiez et effectuez des vérifications régulières des tableaux de bord de charge de travail. Vous pouvez avoir des cadences différentes selon la profondeur à laquelle vous inspectez.

  2. Inspectez les tendances dans les métriques. Comparez les valeurs des métriques aux valeurs historiques pour voir si des tendances peuvent indiquer que quelque chose doit faire l’objet d’une enquête. Cela peut être une augmentation de la latence, une diminution de la fonction principale de l’entreprise ou une augmentation des réponses aux échecs.

  3. Recherchez des valeurs aberrantes et des anomalies dans vos métriques, qui peuvent être masquées par des moyennes ou des médianes. Observez les maximales et les minimales sur une période donnée et étudiez les causes des observations qui figurent loin des normales attendues. Au fur et à mesure que vous éliminez ces causes, vous pouvez resserrer les limites des métriques attendues en réponse à l’amélioration de la cohérence des performances de votre charge de travail.

  4. Recherchez des changements importants de comportement. Un changement immédiat de quantité ou de direction d’une métrique peut indiquer une modification de l’application ou des facteurs externes, dont le suivi peut nécessiter l’ajout de métriques supplémentaires.

  5. Vérifiez si la stratégie de surveillance actuelle reste pertinente pour l’application. Sur la base d’une analyse des incidents précédents (ou du cadre d’analyse de résilience), déterminez si d’autres aspects de l’application devraient être incorporés dans la portée de la surveillance.

  6. Passez en revue vos métriques de surveillance des utilisateurs réels (RUM) pour déterminer s’il existe des lacunes dans la couverture des fonctionnalités de l’application.

  7. Passez en revue votre processus de gestion des modifications. Mettez à jour vos procédures, si nécessaire, pour inclure une étape d’analyse de surveillance à effectuer avant d’approuver une modification.

  8. Mettez en œuvre un examen de surveillance dans le cadre de votre examen de l’état de préparation opérationnelle et de vos processus de correction des erreurs.

Ressources

Bonnes pratiques associées

Documents connexes :