Surveiller les ressources de charge de travail - Reliability Pillar

Surveiller les ressources de charge de travail

Les journaux et les métriques sont des outils puissants qui permettent de mieux comprendre l’état de santé de votre charge de travail. Vous pouvez configurer votre charge de travail pour qu’elle surveille les journaux et les métriques et envoie des notifications lorsque des seuils sont franchis ou que des événements importants se produisent. La surveillance permet à votre charge de travail de reconnaître quand des seuils de faibles performances sont franchis ou quand des défaillances se produisent, afin d’y répondre par une récupération automatique.

La surveillance est essentielle pour s’assurer que vous respectez vos exigences en matière de disponibilité. Votre surveillance doit détecter efficacement les pannes. La pire des pannes est « silencieuse ». La fonctionnalité devient inopérante, mais il est impossible de détecter la panne, sinon indirectement. Vos clients sont informés avant vous. La fonction d’alerte en cas de problèmes est l’une des principales raisons de votre surveillance. Vos alertes doivent être séparées autant que possible de vos systèmes. Si votre interruption de service supprime votre capacité d’alerte, cela rallongera votre période d’interruption.

Chez AWS, nous instrumentons nos applications à plusieurs niveaux. Nous enregistrons la latence, les taux d’erreurs et la disponibilité pour chaque requête, pour toutes les dépendances et pour les opérations clés du processus. Nous enregistrons également des métriques sur le bon fonctionnement. Cela nous permet de voir les problèmes imminents avant qu’ils se produisent. Nous ne prenons pas seulement en compte la latence moyenne. Nous nous concentrons davantage sur la latence hors norme, comme les 99,9e et 99,99e centiles. En effet, si une requête sur 1 000 ou 10 000 est lente, cela reste une mauvaise expérience. Ainsi, si votre moyenne est acceptable, mais qu’une requête sur 100 entraîne une latence extrême, un problème peut survenir lorsque votre trafic augmente.

La surveillance au sein d’AWS comporte quatre phases distinctes :

Génération : surveillance de tous les composants de la charge de travail
Agrégation : définition et calcul des métriques
Traitement et alarmes en temps réel : envoi de notifications et automatisation des réponses
Stockage et analyse

Bonnes pratiques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Gestion des modifications

REL06-BP01 Surveiller tous les composants pour la charge de travail (génération)

Sélectionner vos préférences de cookies

Personnaliser les préférences de cookies

Essentiels

Performances

Fonctionnels

Publicitaires

Impossible d'enregistrer les préférences concernant les cookies

Surveiller les ressources de charge de travail

Bonnes pratiques

Cette page vous a-t-elle été utile ?

Rubrique suivante :

Rubrique précédente :

Avez-vous besoin d’aide ?