Des options alarmantes avec CloudWatch - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Des options alarmantes avec CloudWatch

L'analyse ponctuelle et automatisée des indicateurs importants vous aide à détecter et à résoudre les problèmes avant qu'ils n'affectent vos charges de travail. CloudWatch permet de représenter graphiquement et de comparer facilement plusieurs indicateurs en utilisant plusieurs statistiques sur une période donnée. Vous pouvez l'utiliser CloudWatch pour effectuer une recherche dans tous les indicateurs avec les valeurs de dimension requises afin de trouver les indicateurs dont vous avez besoin pour votre analyse.

Nous vous recommandons de commencer votre approche de capture des métriques en incluant un ensemble initial de métriques et de dimensions à utiliser comme base de référence pour surveiller une charge de travail. Au fil du temps, la charge de travail évolue et vous pouvez ajouter des mesures et des dimensions supplémentaires pour vous aider à mieux l'analyser et à la soutenir. Vos applications ou charges de travail peuvent utiliser plusieurs AWS ressources et disposer de leurs propres métriques personnalisées. Vous devez regrouper ces ressources dans un espace de noms pour les identifier plus facilement.

Vous devez également prendre en compte la façon dont les données de journalisation et de surveillance sont corrélées afin de pouvoir identifier rapidement les données de journalisation et de surveillance pertinentes pour diagnostiquer des problèmes spécifiques. Vous pouvez utiliser la carte de AWS X-Ray suivi pour corréler les traces, les métriques, les journaux et les alarmes afin de diagnostiquer les problèmes. Vous devriez également envisager d'inclure des dimensions supplémentaires dans les métriques et les identifiants dans les journaux de vos charges de travail afin de vous aider à rechercher et à identifier rapidement les problèmes liés aux systèmes et aux services.

Utilisation d' CloudWatch alarmes pour surveiller et alarmer

Vous pouvez utiliser des CloudWatch alarmes pour réduire la surveillance manuelle de vos charges de travail ou de vos applications. Vous devez commencer par examiner les métriques que vous capturez pour chaque composant de la charge de travail et déterminer les seuils appropriés pour chaque métrique. Assurez-vous d'identifier les membres de l'équipe qui doivent être avertis lorsqu'un seuil est dépassé. Vous devez établir et cibler des groupes de distribution plutôt que des membres individuels de l'équipe.

CloudWatch les alarmes peuvent s'intégrer à votre solution de gestion des services pour créer automatiquement de nouveaux tickets et exécuter des flux de travail opérationnels. Par exemple, AWS fournit le connecteur AWS de gestion des services pour ServiceNowet Connecteur AWS Service Managementpour vous aider à configurer rapidement les intégrations. Cette approche est essentielle pour garantir que les alarmes déclenchées sont reconnues et alignées sur vos flux de travail opérationnels existants qui peuvent déjà être définis dans ces produits.

Vous pouvez également créer plusieurs alarmes pour la même métrique avec des seuils et des périodes d'évaluation différents, ce qui permet d'établir un processus d'escalade. Par exemple, si vous disposez d'un OrderQueueDepth indicateur qui suit les commandes des clients, vous pouvez définir un seuil inférieur sur une courte période moyenne d'une minute pour informer les membres de l'équipe chargée de l'application par e-mail ou par Slack. Vous pouvez également définir une autre alarme pour le même indicateur sur une période plus longue de 15 minutes au même seuil et qui envoie des pages, des e-mails et des notifications à l'équipe d'application et au responsable de l'équipe d'application. Enfin, vous pouvez définir une troisième alarme pour un seuil moyen fixe sur une période de 30 minutes, qui avertit la haute direction et avertit tous les membres de l'équipe préalablement informés. La création de plusieurs alarmes vous permet de prendre différentes mesures en fonction des conditions. Vous pouvez commencer par un processus de notification simple, puis l'ajuster et l'améliorer selon vos besoins.

Utilisation de la détection des CloudWatch anomalies pour la surveillance et l'alarme

Vous pouvez utiliser la détection des CloudWatch anomalies si vous n'êtes pas sûr des seuils à appliquer pour une métrique particulière ou si vous souhaitez qu'une alarme ajuste automatiquement les valeurs de seuil en fonction des valeurs historiques observées. CloudWatch la détection des anomalies est particulièrement utile pour les indicateurs susceptibles d'entraîner des changements d'activité réguliers et prévisibles, par exemple l'augmentation des bons de commande quotidiens destinés à être livrés le jour même avant une heure limite. La détection des anomalies permet des seuils qui s'ajustent automatiquement et peuvent contribuer à réduire le nombre de fausses alarmes. Vous pouvez activer la détection des anomalies pour chaque métrique et statistique, et configurer l'alarme en fonction CloudWatch des valeurs aberrantes.

Par exemple, vous pouvez activer la détection des anomalies pour la CPUUtilization métrique et les AVG statistiques sur une EC2 instance. La détection des anomalies utilise ensuite jusqu'à 14 jours de données historiques pour créer le modèle d'apprentissage automatique (ML). Vous pouvez créer plusieurs alarmes avec différentes bandes de détection d'anomalies pour établir un processus d'escalade des alarmes, similaire à la création de plusieurs alarmes standard avec des seuils différents.

Pour plus d'informations sur cette section, consultez la section Création d'une CloudWatch alarme basée sur la détection d'anomalies dans la CloudWatch documentation.

Alarme concernant plusieurs régions et comptes

Les propriétaires d'applications et de charges de travail doivent créer des alarmes au niveau de l'application pour les charges de travail qui s'étendent sur plusieurs régions. Nous vous recommandons de créer des alarmes distinctes pour chaque compte et chaque région dans lesquels votre charge de travail est déployée. Vous pouvez simplifier et automatiser ce processus en utilisant des modèles et des modèles indépendants des comptes AWS CloudFormation StackSets et des régions pour déployer les ressources de l'application avec les alarmes requises. templateYou peut configurer les actions d'alarme pour cibler un sujet Amazon Simple Notification Service (AmazonSNS) courant, ce qui signifie que la même action de notification ou de correction est utilisée quel que soit le compte ou la région.

Dans les environnements multicomptes et multirégionaux, nous vous recommandons de créer des alarmes agrégées pour vos comptes et régions afin de surveiller les problèmes liés aux comptes et aux régions en utilisant AWS CloudFormation StackSets des indicateurs agrégés, tels que la moyenne de CPUUtilization toutes les EC2 instances.

Vous devez également envisager de créer des alarmes standard pour chaque charge de travail configurée pour les CloudWatch métriques et les journaux standard que vous capturez. Par exemple, vous pouvez créer une alarme distincte pour chaque EC2 instance qui surveille la métrique d'CPUutilisation et avertit une équipe opérationnelle centrale lorsque l'CPUutilisation moyenne est supérieure à 80 % sur une base quotidienne. Vous pouvez également créer une alarme standard qui surveille une CPU utilisation moyenne inférieure à 10 % sur une base quotidienne. Ces alarmes aident l'équipe des opérations centrales à travailler avec des propriétaires de charges de travail spécifiques afin de modifier la taille des EC2 instances lorsque cela est nécessaire.

Automatiser la création d'alarmes à l'aide de balises d'EC2instance

La création d'un ensemble d'alarmes standard pour vos EC2 instances peut être chronophage, incohérente et source d'erreurs. Vous pouvez accélérer le processus de création d'alarmes en utilisant la amazon-cloudwatch-auto-alarmssolution pour créer automatiquement un ensemble standard d' CloudWatchalarmes pour vos EC2 instances et créer des alarmes personnalisées en fonction des balises d'EC2instance. La solution élimine le besoin de créer manuellement des alarmes standard et peut être utile lors d'une migration à grande échelle d'EC2instances utilisant des outils tels que CloudEndure. Vous pouvez également déployer cette solution AWS CloudFormation StackSets pour prendre en charge plusieurs régions et comptes. Pour plus d'informations, consultez la section Utiliser des balises pour créer et gérer des CloudWatch alarmes Amazon pour les EC2 instances Amazon sur le AWS blog.