OPS04-BP04 Implémenter la télémétrie des dépendances - Pilier Excellence opérationnelle

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

OPS04-BP04 Implémenter la télémétrie des dépendances

La télémétrie des dépendances est essentielle pour surveiller l’état et les performances des services et composants externes sur lesquels repose votre charge de travail. Il fournit des informations précieuses sur l'accessibilité, les délais d'attente et d'autres événements critiques liés aux dépendances telles que les bases de données ou DNS les tiers. APIs Lorsque vous instrumentez votre application de sorte à émettre des métriques, des journaux et des données de suivi concernant ces dépendances, vous identifiez plus facilement les goulets d’étranglement potentiels, les problèmes de performances ou les défaillances susceptibles d’avoir un impact sur votre charge de travail.

Résultat escompté : assurez-vous que les dépendances sur lesquelles repose votre charge de travail fonctionnent comme prévu, ce qui vous permet de résoudre les problèmes de manière proactive et de garantir des performances de charge de travail optimales.

Anti-modèles courants :

  • Omission des dépendances externes : se concentrer uniquement sur les métriques internes des applications tout en négligeant les métriques liées aux dépendances externes.

  • Absence de surveillance proactive : attendre l’apparition de problèmes au lieu de surveiller en permanence l’état et les performances des dépendances.

  • Surveillance cloisonnée : utiliser des outils de surveillance divers et variés qui peuvent donner lieu à des visions fragmentées et incohérentes de l’état des dépendances.

Avantages liés au respect de cette bonne pratique :

  • Fiabilité améliorée de la charge de travail : en garantissant que les dépendances externes sont constamment disponibles et fonctionnent de manière optimale.

  • Détection et résolution plus rapides des problèmes : en identifiant et en résolvant de manière proactive les problèmes liés aux dépendances avant qu’ils n’affectent la charge de travail.

  • Vue globale : grâce à une visibilité complète des composants internes et externes qui influencent l’état de la charge de travail.

  • Meilleure capacité de mise à l’échelle de la charge de travail : grâce à une meilleure compréhension des limites de la capacité de mise à l’échelle et des caractéristiques de performance des dépendances externes.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

Mettez en œuvre la télémétrie des dépendances en commençant par identifier les services, l’infrastructure et les processus sur lesquels repose votre charge de travail. Quantifiez ce à quoi les conditions favorables ressemblent lorsque ces dépendances fonctionnent comme prévu, puis déterminez les données nécessaires pour les mesurer. Ces informations vous permettront de créer des tableaux de bord et des alertes qui fourniront à vos équipes opérationnelles des informations sur l’état de ces dépendances. Utilisez AWS des outils pour découvrir et quantifier les impacts lorsque les dépendances ne peuvent pas répondre aux besoins. Revoyez continuellement votre stratégie en tenant compte de l’évolution des priorités, des objectifs et des connaissances acquises.

Étapes d’implémentation

Pour implémenter efficacement la télémétrie des dépendances :

  1. Identification des dépendances externes : collaborez avec les parties prenantes pour identifier les dépendances externes sur lesquelles repose votre charge de travail. Les dépendances externes peuvent englober des services tels que des bases de données externes, des services tiersAPIs, des routes de connectivité réseau vers d'autres environnements et des DNS services. La première étape à suivre pour assurer l’efficacité de la télémétrie des dépendances consiste à comprendre parfaitement ce que sont ces dépendances.

  2. Élaboration d’une stratégie de suivi : une fois que vous avez une idée précise de vos dépendances externes, élaborez une stratégie de surveillance qui leur est adaptée. Cela implique de comprendre le caractère critique de chaque dépendance, son comportement attendu et tous les accords ou cibles de niveau de service associés (SLAou). SLTs Configurez des alertes proactives pour vous informer des changements d’état ou des écarts de performance.

  3. Utilisation de la surveillance du réseau : utilisez Internet Monitor et Network Monitor, qui fournissent des informations complètes sur l’état mondial de l’Internet et du réseau. Ces outils vous aident à comprendre les pannes, les interruptions ou les dégradations de performances qui affectent vos dépendances externes et à y répondre.

  4. Restez informé avec AWS Health Dashboard: il fournit des alertes et des conseils de résolution en cas AWS d'événements susceptibles d'avoir un impact sur vos services.

    1. Surveillez AWS Health les événements EventBridge selon les règles d'Amazon ou intégrez-les par programmation AWS Health API pour automatiser les actions lorsque vous recevez des AWS Health événements. Il peut s’agir d’actions générales, telles que l’envoi de tous les messages relatifs aux événements du cycle de vie planifiés vers une interface de discussion, ou d’actions spécifiques, telles que le lancement d’un flux de travail dans un outil de gestion des services informatiques.

    2. Si vous en utilisez AWS Organizations, regroupez AWS Health les événements entre les comptes.

  5. Instrumentez votre application avec AWS X-Ray: AWS X-Ray fournit des informations sur les performances des applications et de leurs dépendances sous-jacentes. En suivant les requêtes du début à la fin, vous pouvez identifier les goulets d’étranglement ou les défaillances des services ou composants externes sur lesquels repose votre application.

  6. Utilisez Amazon DevOps Guru : ce service basé sur l'apprentissage automatique identifie les problèmes opérationnels, prédit le moment où des problèmes critiques peuvent survenir et recommande des mesures spécifiques à prendre. Il s’agit d’un outil inestimable qui permet de mieux comprendre les dépendances et de déterminer qu’elles ne sont pas à l’origine de problèmes opérationnels.

  7. Surveillance régulière : surveillez en permanence les métriques et les journaux liés aux dépendances externes. Configurez des alertes en cas de comportement inattendu ou de dégradation des performances.

  8. Validation après les modifications : chaque fois qu’une dépendance externe est mise à jour ou modifiée, validez ses performances et vérifiez qu’elle correspond aux exigences de votre application.

Niveau d’effort du plan d’implémentation : moyen

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :