Définissez et configurez les alarmes dans Incident Detection and Response

Mode de mise au point

Définissez et configurez les alarmes dans Incident Detection and Response - Guide de l'utilisateur d'AWS pour la détection et la réponse aux incidents

AWS travaille avec vous pour définir des métriques et des alarmes afin de fournir une visibilité sur les performances de vos applications et de leur AWS infrastructure sous-jacente. Nous demandons que les alarmes respectent les critères suivants lors de la définition et de la configuration des seuils :

Les alarmes ne passent à l'état « Alarme » que lorsqu'elles ont un impact critique sur la charge de travail surveillée (perte de revenus ou dégradation de l'expérience client réduisant considérablement les performances) nécessitant une attention immédiate de la part de l'opérateur.
Les alarmes doivent également impliquer les résolveurs que vous avez spécifiés pour la charge de travail en même temps ou avant que l'équipe de gestion des incidents ne soit engagée. Les ingénieurs de gestion des incidents doivent collaborer avec les résolveurs que vous avez spécifiés dans le cadre du processus d'atténuation, et non agir en tant qu'intervenants de première ligne pour ensuite vous contacter.
Les seuils d'alarme doivent être fixés à un seuil et à une durée appropriés afin qu'une enquête soit menée chaque fois qu'une alarme se déclenche. Si une alarme passe de l'état « Alarme » à l'état « OK », l'impact est suffisant pour justifier la réponse et l'attention de l'opérateur.

Types d'alarmes :

Des alarmes qui indiquent le niveau d'impact sur l'entreprise et transmettent des informations pertinentes pour une détection simple des défauts.
CloudWatch Canaris d'Amazon. Pour plus d'informations, consultez Canaries and X-Ray tracing et X-Ray.
Alarme agrégée (surveillance des dépendances)

Le tableau suivant fournit des exemples d'alarmes, toutes utilisant le système CloudWatch de surveillance.

Nom de la métrique/Seuil d'alarme	ARN d'alarme ou ID de ressource	Si cette alarme se déclenche	Si vous êtes engagé, soumettez un dossier de Support Premium pour ces services
Erreurs d'API/ Nombre d'erreurs >= 10 pour 10 points de données	arn:aws:cloudwatch:us-west- 2:000000000000:Alarme : E2 Lambda Errors MPmim	Ticket retiré à l'équipe d'administration de base de données (DBA)	Lambda, API Gateway
ServiceUnavailable (Code d'état HTTP 503) Nombre d'erreurs >=3 pour 10 points de données (clients différents) dans une fenêtre de 5 minutes	arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503	Ticket réduit pour l'équipe de service	Lambda, API Gateway
ThrottlingException (Code d'état HTTP 400) Nombre d'erreurs >=3 pour 10 points de données (clients différents) dans une fenêtre de 5 minutes	arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400	Ticket réduit pour l'équipe de service	EC2, Amazon Aurora

Nom de la métrique/Seuil d'alarme

ARN d'alarme ou ID de ressource

Si cette alarme se déclenche

Si vous êtes engagé, soumettez un dossier de Support Premium pour ces services

Erreurs d'API/

Nombre d'erreurs >= 10 pour 10 points de données

arn:aws:cloudwatch:us-west- 2:000000000000:Alarme : E2 Lambda Errors MPmim

Ticket retiré à l'équipe d'administration de base de données (DBA)

Lambda, API Gateway

ServiceUnavailable (Code d'état HTTP 503)

Nombre d'erreurs >=3 pour 10 points de données (clients différents) dans une fenêtre de 5 minutes

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503

Ticket réduit pour l'équipe de service

Lambda, API Gateway

ThrottlingException (Code d'état HTTP 400)

Nombre d'erreurs >=3 pour 10 points de données (clients différents) dans une fenêtre de 5 minutes

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400

Ticket réduit pour l'équipe de service

EC2, Amazon Aurora

Pour en savoir plus, consultez Surveillance et observabilité de la détection et de la réponse aux incidents AWS.

Principaux résultats :

Définition et configuration des alarmes sur vos charges de travail.
Compléter les détails de l'alarme sur le questionnaire d'intégration.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.