Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
REL06-BP01 Surveiller tous les composants pour la charge de travail (génération)
Surveillez les composants de la charge de travail à l'aide d'Amazon CloudWatch ou d'outils tiers. Surveillez AWS les services avec le AWS Health tableau de bord.
Tous les composants de votre charge de travail doivent être surveillés, y compris le côté utilisateur, la logique métier et les niveaux de stockage. Au besoin, définissez des métriques clés, décrivez leur procédure d’extraction des journaux, puis spécifiez des seuils d’invocation pour les événements d’alarme correspondants. Assurez-vous que les métriques correspondent aux indicateurs de performance clés (KPIs) de votre charge de travail, et utilisez les métriques et les journaux pour identifier les signes avant-coureurs d'une dégradation du service. Par exemple, un indicateur lié aux résultats commerciaux, tel que le nombre de commandes traitées avec succès par minute, peut indiquer les problèmes de charge de travail plus rapidement qu'un indicateur technique, tel que CPU l'utilisation. Utilisez le AWS Health tableau de bord pour obtenir une vue personnalisée des performances et de la disponibilité des AWS services sous-jacents à vos AWS ressources.
La surveillance dans le cloud offre de nouvelles opportunités. La plupart des fournisseurs de cloud ont développé des hooks personnalisables et peuvent fournir des informations pour vous aider à surveiller plusieurs niveaux de votre charge de travail. AWS des services tels qu'Amazon CloudWatch appliquent des algorithmes statistiques et d'apprentissage automatique pour analyser en permanence les métriques des systèmes et des applications, déterminer des bases de référence normales et détecter des anomalies avec une intervention minimale de l'utilisateur. Les algorithmes de détection des anomalies tiennent compte de la saisonnalité et des changements de tendance des métriques.
AWS met à disposition une multitude d'informations de surveillance et de journalisation destinées à la consommation, qui peuvent être utilisées pour définir des mesures et des change-in-demand processus spécifiques à la charge de travail et adopter des techniques d'apprentissage automatique, quelle que soit l'expertise en machine learning.
En outre, surveillez l’ensemble de vos points de terminaison externes afin de vous assurer qu’ils sont indépendants de votre implémentation de base. Cette surveillance active peut être effectuée avec des transactions synthétiques (parfois appelées Canary utilisateurs à ne pas confondre avec les déploiements Canary) qui exécutent régulièrement un certain nombre de tâches courantes effectuées par les clients de la charge de travail. Maintenez ces tâches de courte durée et veillez à ne pas surcharger votre charge de travail pendant les tests. Amazon CloudWatch Synthetics vous permet de créer des canaris synthétiques pour surveiller vos points de terminaison et. APIs Vous pouvez également combiner les nœuds de clients synthétiques Canary avec la console AWS X-Ray pour identifier les scripts Canary synthétiques qui rencontrent des erreurs, des pannes ou des taux de limitation au cours de la période sélectionnée.
Résultat souhaité :
Collectez et utilisez des métriques critiques de tous les composants de la charge de travail pour garantir la fiabilité de la charge de travail et une expérience utilisateur optimale. Détecter qu’une charge de travail n’atteint pas les résultats vous permet de déclarer rapidement un sinistre et de vous remettre d’un incident.
Anti-modèles courants :
-
Surveillance limitée aux interfaces externes de votre charge de travail.
-
Ne pas générer de métriques spécifiques à la charge de travail et se fier uniquement aux métriques qui vous sont fournies par les AWS services utilisés par votre charge de travail.
-
N'utilisez que des indicateurs techniques dans votre charge de travail et ne surveillez aucune métrique liée aux paramètres non techniques auxquels KPIs la charge de travail contribue.
-
S’appuyer sur le trafic de production et de simples surveillances de l’état pour surveiller et évaluer l’état de la charge de travail.
Avantages du respect de cette bonne pratique : la surveillance à tous les niveaux de votre charge de travail vous permet d’anticiper et de résoudre plus rapidement les problèmes dans les composants qui constituent la charge de travail.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé
Directives d’implémentation
-
Activez la journalisation lorsqu’elle est disponible. Les données de surveillance doivent être obtenues à partir de tous les composants des charges de travail. Activez la journalisation supplémentaire, telle que les journaux d’accès S3, et autorisez votre charge de travail à consigner des données qui lui sont spécifiques. Collectez des métriques relatives aux CPU E/S réseau et aux moyennes des E/S sur disque auprès de services tels qu'Amazon, ECS Amazon, EKS AmazonEC2, Elastic Load Balancing AWS Auto Scaling et Amazon. EMR Consultez la section AWS Services qui publient CloudWatch des métriques pour obtenir la liste des AWS services sur lesquels vous publiez des métriques CloudWatch.
-
Passez en revue toutes les métriques par défaut et explorez toutes les lacunes de collecte de données. Chaque service génère des métriques par défaut. La collecte des métriques par défaut vous permet de mieux comprendre les dépendances entre les composants de charge de travail et sur la manière dont la fiabilité et les performances des composants affectent la charge de travail. Vous pouvez également créer et publier vos propres statistiques à CloudWatch l'aide du AWS CLI ou d'unAPI.
-
Évaluez tous les indicateurs afin de déterminer ceux sur lesquels vous souhaitez émettre une alerte pour chaque AWS service de votre charge de travail. Vous pouvez choisir de sélectionner un sous-ensemble de métriques qui ont un impact majeur sur la fiabilité de la charge de travail. En vous concentrant sur les métriques et les seuils critiques, vous pouvez affiner le nombre d’alertes et réduire le nombre de faux positifs.
-
Définissez des alertes et le processus de récupération de votre charge de travail après l’invocation de l’alerte. La définition d'alertes vous permet de notifier, d'escalader et de suivre rapidement les étapes nécessaires pour vous remettre d'un incident et atteindre l'objectif de temps de rétablissement prescrit (RTO). Vous pouvez utiliser Amazon CloudWatch Alarms pour appeler des flux de travail automatisés et lancer des procédures de restauration en fonction de seuils définis.
-
Explorez l’utilisation de transactions synthétiques pour collecter des données pertinentes sur l’état des charges de travail. La surveillance synthétique suit les mêmes routes et effectue les mêmes actions qu’un client, ce qui vous permet de vérifier en permanence l’expérience client même lorsque vous n’avez aucun trafic client sur vos charges de travail. En utilisant les transactions synthétiques, vous pouvez découvrir les problèmes avant vos clients.
Ressources
Bonnes pratiques associées :
Documents connexes :
-
Commencer à utiliser votre AWS Health tableau de bord — État de santé de votre compte
-
Activation des journaux d’accès pour votre Classic Load Balancer
-
Installation de l' CloudWatch agent sur une EC2 instance Amazon
-
Qu'est-ce qu'Amazon CloudWatch Logs ?
Guides de l’utilisateur :
-
Surveillance des métriques relatives à la mémoire et au disque pour les instances Amazon EC2 Linux
-
Utilisation CloudWatch des journaux avec des instances de conteneur
Blogs connexes :
Exemples et ateliers connexes :