Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS trabaja con usted para definir métricas y alarmas a fin de proporcionar visibilidad del rendimiento de sus aplicaciones y su AWS infraestructura subyacente. Solicitamos que las alarmas cumplan los siguientes criterios al definir y configurar los umbrales:
Las alarmas solo entran en el estado de «alarma» cuando se produce un impacto crítico en la carga de trabajo monitoreada (pérdida de ingresos o deterioro de la experiencia del cliente, lo que reduce significativamente el rendimiento) y requiere la atención inmediata del operador.
Las alarmas también deben activar las soluciones especificadas para la carga de trabajo al mismo tiempo o antes de contactar con el equipo de gestión de incidentes. Los ingenieros de gestión de incidentes deberían colaborar con las personas encargadas de resolver las incidencias en el proceso de mitigación, no actuar como personal de primera línea y luego ponerse en contacto con usted.
Los umbrales de alarma se deben establecer con un umbral y una duración adecuados, de modo que cada vez que se active una alarma, se lleve a cabo una investigación. Si una alarma oscila entre los estados «Alarma» y «OK», se está produciendo un impacto suficiente como para justificar la respuesta y la atención del operador.
Tipos de alarmas:
Alarmas que muestran el nivel de impacto en el negocio y transmiten información relevante para una detección sencilla de fallas.
Amazon CloudWatch canarios. Para obtener más información, consulte Canaries and X-Ray tracing y X-Ray.
Alarmas agregadas (monitoreo de dependencias)
La siguiente tabla proporciona ejemplos de alarmas, todas ellas con el sistema CloudWatch de monitoreo.
Nombre de la métrica o umbral de alarma | ARN de alarma o ID de recurso | Si se activa esta alarma | Si está contratado, solicite un caso de soporte premium para estos servicios |
---|---|---|---|
Errores de API/ Número de errores >= 10 para 10 puntos de datos |
arn:aws:cloudwatch:us-west- 2:000000000000:Alarma: E2 Lambda-Errores MPmim |
El equipo de administradores de bases de datos (DBA) ha sido eliminado |
Lambda, API Gateway |
ServiceUnavailable (Código de estado HTTP 503) Número de errores >=3 para 10 puntos de datos (clientes diferentes) en un período de 5 minutos |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
Boleto reducido al equipo de servicio |
Lambda, API Gateway |
ThrottlingException (Código de estado HTTP 400) Número de errores >=3 para 10 puntos de datos (clientes diferentes) en un período de 5 minutos |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
Boleto eliminado para el equipo de servicio |
EC2, Amazon Aurora |
Para obtener más información, consulta Monitorización y observabilidad de la detección y respuesta a incidentes de AWS.
Resultados clave:
Definición y configuración de las alarmas en sus cargas de trabajo.
Completar los detalles de la alarma en el cuestionario de incorporación.