OPS08-BP04 Creación de alertas procesables
Es crucial detectar y responder rápidamente a las desviaciones en el comportamiento de su aplicación. Es especialmente vital reconocer cuándo están en peligro los resultados basados en los indicadores clave de rendimiento (KPI) o cuándo surgen anomalías inesperadas. Basar las alertas en los KPI garantiza que las señales que reciba estén directamente relacionadas con el impacto empresarial u operativo. Este enfoque de alertas procesables promueve respuestas proactivas y ayuda a mantener el rendimiento y la fiabilidad del sistema.
Resultado deseado: reciba alertas oportunas, pertinentes y procesables para identificar y mitigar rápidamente los posibles problemas, especialmente cuando los resultados de los KPI están en peligro.
Patrones comunes de uso no recomendados:
-
Configurar demasiadas alertas que no son críticas, lo que provoca un exceso de alertas.
-
No dar prioridad a las alertas en función de los KPI, lo que dificulta la comprensión del impacto empresarial de los problemas.
-
No abordar las causas raíz, lo que genera alertas repetitivas sobre el mismo problema.
Beneficios de establecer esta práctica recomendada:
-
Se ha reducido el exceso de alertas al poner el foco en las alertas pertinentes y procesables.
-
Se ha mejorado el tiempo de actividad y la fiabilidad del sistema gracias a la detección y mitigación proactivas de problemas.
-
Se ha mejorado la colaboración en equipo y se ha agilizado la resolución de problemas mediante la integración con herramientas de alerta y comunicación populares.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto
Guía para la implementación
Para crear un mecanismo de alerta eficaz, es fundamental utilizar métricas, registros y datos de rastreo que indiquen cuándo los resultados basados en los KPI están en peligro o se detectan anomalías.
Pasos para la implementación
-
Definición de los indicadores clave de rendimiento (KPI): identifique los KPI de su aplicación. Las alertas deben estar vinculadas a estos KPI para reflejar el impacto empresarial con precisión.
-
Implementación de la detección de anomalías:
-
Uso de la detección de anomalías de Amazon CloudWatch: configure la detección de anomalías de Amazon CloudWatch para detectar automáticamente patrones inusuales, lo que le ayuda a generar alertas únicamente para anomalías auténticas.
-
Uso de AWS X-Ray Insights:
-
Configure X-Ray Insights para detectar anomalías en los datos de rastreo.
-
Configure las notificaciones de X-Ray Insights para recibir alertas sobre los problemas detectados.
-
-
Integración con Amazon DevOps Guru:
-
Use Amazon DevOps Guru
por sus capacidades de machine learning para detectar anomalías operativas con los datos existentes. -
Vaya a la configuración de notificaciones en DevOps Guru para configurar alertas de anomalías.
-
-
-
Implementación de alertas procesables: diseñe alertas que proporcionen la información adecuada para tomar medidas de inmediato.
-
Supervise los eventos de AWS Health con las reglas de Amazon EventBridge o intégrelos mediante programación con la API de AWS Health para automatizar las acciones cuando reciba eventos de AWS Health. Puede tratarse de acciones generales, como el envío de todos los mensajes de eventos del ciclo de vida planificado a una interfaz de chat, o de acciones específicas, como el inicio de un flujo de trabajo en una herramienta de administración de servicios de TI.
-
-
Reducción de la fatiga de alertas: minimice las alertas no críticas. Cuando los equipos se sienten abrumados porque reciben numerosas alertas insignificantes, podrían dejar pasar problemas críticos, lo que disminuye la eficacia general del mecanismo de alertas.
-
Configuración de alarmas compuestas: utilice alarmas compuestas de Amazon CloudWatch
para consolidar varias alarmas. -
Integración con herramientas de alerta: incorpore herramientas como Ops Genie
y PagerDuty . -
Interacción con AWS Chatbot: integre AWS Chatbot
para transmitir alertas a Amazon Chime, Microsoft Teams y Slack. -
Alerta basada en registros: utilice filtros de métricas de registro en CloudWatch para crear alarmas basadas en eventos de registro específicos.
-
Revisión e iteración: revisite y perfeccione periódicamente las configuraciones de las alertas.
Nivel de esfuerzo para el plan de implementación: medio
Recursos
Prácticas recomendadas relacionadas:
Documentos relacionados:
Videos relacionados:
Ejemplos relacionados: