Opciones alarmantes con CloudWatch - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Opciones alarmantes con CloudWatch

Realizar un análisis automatizado y único de métricas importantes le ayuda a detectar y resolver problemas antes de que afecten a sus cargas de trabajo. CloudWatch facilita el gráfico y la comparación de varias métricas mediante el uso de varias estadísticas durante un período de tiempo específico. Puede usar CloudWatch para buscar en todas las métricas con los valores de dimensión necesarios para encontrar las métricas que necesita para el análisis.

Le recomendamos que comience su enfoque de captura de métricas incluyendo un conjunto inicial de métricas y dimensiones que se utilizarán como base para supervisar una carga de trabajo. Con el tiempo, la carga de trabajo madura y puede agregar métricas y dimensiones adicionales para ayudarle a analizarla y respaldarla aún más. Las aplicaciones o cargas de trabajo pueden utilizar variasAWSrecursos y tener sus propias métricas personalizadas, debe agrupar estos recursos en un espacio de nombres para facilitar su identificación.

También debe considerar cómo se correlacionan los datos de registro y supervisión para poder identificar rápidamente los datos de registro y supervisión relevantes para diagnosticar problemas específicos. Puede usarLente de ServiceLens CloudWatchpara correlacionar rastros, métricas, registros y alarmas para diagnosticar problemas. También debe considerar la posibilidad de incluir dimensiones adicionales en métricas e identificadores en los registros de sus cargas de trabajo para ayudarle a buscar e identificar rápidamente problemas en todos los sistemas y servicios.

Uso de CloudWatch Alarmas para monitorear y alarmar

Puede usarAlarmas de CloudWatchpara reducir la supervisión manual de sus cargas de trabajo o aplicaciones. Comience revisando las métricas que está capturando para cada componente de carga de trabajo y determinar los umbrales adecuados para cada métrica. Asegúrese de identificar a qué miembros del equipo deben notificarse cuando se infringe un umbral. Debe establecer y dirigir grupos de distribución, en lugar de a miembros del equipo individuales.

Las alarmas de CloudWatch se pueden integrar con su solución de administración de servicios para crear automáticamente nuevos tickets y ejecutar flujos de trabajo operativos. Por ejemplo,AWSProporciona elAWSService Management Connector paraServiceNowyMesa de servicio de JiraPara ayudarle a configurar rápidamente las integraciones. Este enfoque es fundamental para garantizar que las alarmas elevadas se reconozcan y se alineen con los flujos de trabajo de operaciones existentes que podrían ya estar definidos en estos productos.

También puede crear varias alarmas para la misma métrica que tienen umbrales y períodos de evaluación diferentes, lo que ayuda a establecer un proceso de escalación. Por ejemplo, si tiene unOrderQueueDepthmétrica que realiza un seguimiento de los pedidos de los clientes, puede definir un umbral inferior durante un breve período medio de un minuto que notifica a los miembros del equipo de aplicaciones por correo electrónico oSlack. También puede definir otra alarma para la misma métrica durante un período más largo de 15 minutos en el mismo umbral y esa página, correos electrónicos y notifica al equipo de aplicaciones y al jefe del equipo de aplicaciones. Por último, puede definir una tercera alarma para un umbral medio fijo durante un período de 30 minutos que notifica a la alta dirección y notifica a todos los miembros del equipo notificados previamente. Crear varias alarmas te ayuda a tomar diferentes acciones para diferentes condiciones. Puede comenzar con un sencillo proceso de notificación y, a continuación, ajustarlo y mejorarlo según sea necesario.

Uso de CloudWatch detección de anomalías para monitorear y alarma

Puede usarDetección de anomalías de Cloudsi no está seguro de los umbrales que se aplicarán a una métrica concreta o si desea que una alarma ajuste automáticamente los valores umbrales en función de los valores históricos observados. CloudWatch la detección de anomalías resulta especialmente útil para las métricas que pueden tener cambios regulares y predecibles en la actividad, por ejemplo, los pedidos de compra diarios para la entrega en el mismo día aumentan antes de un tiempo límite. La detección de anomalías permite umbrales que se ajustan automáticamente y pueden ayudar a reducir las falsas alarmas. Puede habilitar la detección de anomalías para cada métrica y estadística, y configurar CloudWatch alarma basada en valores atípicos.

Por ejemplo, puede habilitar la detección de anomalías para elCPUUtilizationMétrica de y elAVGEstadística de una instancia EC2. La detección de anomalías utiliza hasta 14 días de datos históricos para crear el modelo de aprendizaje automático (ML). Puede crear varias alarmas con diferentes bandas de detección de anomalías para establecer un proceso de escalado de alarmas, similar a crear varias alarmas estándar con umbrales diferentes.

Para obtener más información acerca de esta sección, consulteCreación de una alarma de CloudWatch basada en la detección de anomalíasen la CloudWatch .

Alarmante en varias regiones y cuentas

Los propietarios de aplicaciones y cargas de trabajo deben crear alarmas a nivel de aplicación para cargas de trabajo que abarquen varias regiones. Recomendamos crear alarmas independientes en cada cuenta y región en la que se implementa la carga de trabajo. Puede simplificar y automatizar este proceso mediante el uso independiente de la cuenta y la región.AWS CloudFormation StackSets y plantillas para implementar recursos de aplicaciones con las alarmas necesarias. PlantillaPuede configurar las acciones de alarma para dirigirse a un tema común de Amazon Simple Notification Service (Amazon SNS), lo que significa que se utiliza la misma acción de notificación o corrección independientemente de la cuenta o región.

En entornos de varias cuentas y regiones, le recomendamos que cree alarmas agregadas para sus cuentas y regiones para supervisar los problemas de cuentas y regionales medianteAWS CloudFormation StackSets y métricas agregadas, como la mediaCPUUtilizationEn todas las instancias EC2.

También debe considerar la posibilidad de crear alarmas estándar para cada carga de trabajo configurada para el estándar. CloudWatch métricas y registros que captura. Por ejemplo, puede crear una alarma independiente para cada instancia de EC2 que monitoree la métrica de utilización de la CPU y notifica a un equipo de operaciones centrales cuando la utilización media de la CPU supera el 80% diariamente. También puede crear una alarma estándar que monitoree la utilización media de la CPU por debajo del 10% diariamente. Estas alarmas ayudan al equipo de operaciones centrales a trabajar con propietarios de cargas de trabajo específicos para cambiar el tamaño de las instancias de EC2 cuando sea necesario.

Automatizar la creación de alarmas con etiquetas de instancias EC2

Crear un conjunto estándar de alarmas para sus instancias EC2 puede llevar mucho tiempo, ser incoherente y propenso a errores. Puede acelerar el proceso de creación de alarmas utilizando elalarmas automáticas amazon-cloudwatchpara crear automáticamente un conjunto estándar de alarmas de CloudWatch para sus instancias EC2 y crear alarmas personalizadas basadas en etiquetas de instancia EC2. La solución elimina la necesidad de crear alarmas estándar manualmente y puede resultar útil durante una migración a gran escala de instancias de EC2 que utilizan herramientas como CloudEndure. También puede implementar esta solución conAWS CloudFormation StackSets Para admitir varias regiones y cuentas. Para obtener más información, consulteUsar etiquetas para crear y mantener Amazon CloudWatch alarmas para instancias de Amazon EC2en elAWSBlog de.