Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS travaille avec vous pour définir des métriques et des alarmes afin de fournir une visibilité sur les performances de vos applications et de leur AWS infrastructure sous-jacente. Nous demandons que les alarmes respectent les critères suivants lors de la définition et de la configuration des seuils :
Les alarmes ne passent à l'état « Alarme » que lorsqu'elles ont un impact critique sur la charge de travail surveillée (perte de revenus ou dégradation de l'expérience client réduisant considérablement les performances) nécessitant une attention immédiate de la part de l'opérateur.
Les alarmes doivent également impliquer les résolveurs que vous avez spécifiés pour la charge de travail en même temps ou avant que l'équipe de gestion des incidents ne soit engagée. Les ingénieurs de gestion des incidents doivent collaborer avec les résolveurs que vous avez spécifiés dans le cadre du processus d'atténuation, et non agir en tant qu'intervenants de première ligne pour ensuite vous contacter.
Les seuils d'alarme doivent être fixés à un seuil et à une durée appropriés afin qu'une enquête soit menée chaque fois qu'une alarme se déclenche. Si une alarme passe de l'état « Alarme » à l'état « OK », l'impact est suffisant pour justifier la réponse et l'attention de l'opérateur.
Types d'alarmes :
Des alarmes qui indiquent le niveau d'impact sur l'entreprise et transmettent des informations pertinentes pour une détection simple des défauts.
CloudWatch Canaris d'Amazon. Pour plus d'informations, consultez Canaries and X-Ray tracing et X-Ray
. Alarme agrégée (surveillance des dépendances)
Le tableau suivant fournit des exemples d'alarmes, toutes utilisant le système CloudWatch de surveillance.
Nom de la métrique/Seuil d'alarme | ARN d'alarme ou ID de ressource | Si cette alarme se déclenche | Si vous êtes engagé, soumettez un dossier de Support Premium pour ces services |
---|---|---|---|
Erreurs d'API/ Nombre d'erreurs >= 10 pour 10 points de données |
arn:aws:cloudwatch:us-west- 2:000000000000:Alarme : E2 Lambda Errors MPmim |
Ticket retiré à l'équipe d'administration de base de données (DBA) |
Lambda, API Gateway |
ServiceUnavailable (Code d'état HTTP 503) Nombre d'erreurs >=3 pour 10 points de données (clients différents) dans une fenêtre de 5 minutes |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
Ticket réduit pour l'équipe de service |
Lambda, API Gateway |
ThrottlingException (Code d'état HTTP 400) Nombre d'erreurs >=3 pour 10 points de données (clients différents) dans une fenêtre de 5 minutes |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
Ticket réduit pour l'équipe de service |
EC2, Amazon Aurora |
Pour en savoir plus, consultez Surveillance et observabilité de la détection et de la réponse aux incidents AWS.
Principaux résultats :
Définition et configuration des alarmes sur vos charges de travail.
Compléter les détails de l'alarme sur le questionnaire d'intégration.