Conceptos básicos de alertas - Amazon Managed Grafana

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conceptos básicos de alertas

Este tema de documentación está diseñado para los espacios de trabajo de Grafana que admiten la versión 8.x de Grafana.

Para los espacios de trabajo de Grafana que admiten la versión 10.x de Grafana, consulte Uso de la versión 10 de Grafana.

Para los espacios de trabajo de Grafana que admiten la versión 9.x de Grafana, consulte Uso de la versión 9 de Grafana.

En esta sección, se proporciona información sobre los conceptos fundamentales de las alertas de Grafana.

Conceptos relacionados con las alertas

En la siguiente tabla se describen los conceptos clave de las alertas de Grafana.

Característica o concepto clave Definición

Orígenes de datos de alertas

Seleccione los orígenes de datos desde los que desee consultar y visualizar las métricas, los registros y los rastros.

Programador

Evalúa las reglas de alerta; es el componente que ejecuta consultas periódicas en los orígenes de datos. Solo se aplica a las reglas administradas por Grafana.

Alertmanager

Administra el enrutamiento y la agrupación de las instancias de alerta.

Regla de alerta

Un conjunto de criterios de evaluación para determinar cuándo debe activarse una regla de alerta. Una regla de alerta consta de una o más consultas y expresiones, una condición, la frecuencia de la evaluación y el tiempo durante el cual se cumple la condición. Una regla de alerta puede generar varias instancias de alerta.

Instancia de alerta

Una instancia de alerta es una instancia de una regla de alerta. Una regla de alerta unidimensional tiene una instancia de alerta. Una regla de alerta multidimensional tiene una o más instancias de alerta. Una sola regla de alerta que coincide con varios resultados, como la CPU frente a 10 máquinas virtuales, se cuenta como varias instancias de alerta (en este caso, 10). Este número puede variar con el tiempo. Por ejemplo, una regla de alerta que supervisa el uso de la CPU de todas las máquinas virtuales de un sistema tiene más instancias de alerta a medida que se agregan máquinas virtuales. Para obtener más información acerca de las cuotas de las instancias de alerta, consulte Errores de cuota alcanzada.

Grupo de alertas

Alertmanager agrupa las instancias de alerta de forma predeterminada mediante las etiquetas de la política de notificaciones raíz. Esto controla la eliminación de duplicados y los grupos de instancias de alerta que se envían a los puntos de contacto.

Punto de contacto

Defina cómo se notifica a sus contactos cuando se activa una regla de alerta.

Plantillas de mensajes

Cree plantillas personalizadas reutilizables y utilícelas en los puntos de contacto.

Política de notificaciones

Conjunto de reglas sobre dónde, cuándo y cómo se agrupan las alertas y se dirigen a los puntos de contacto.

Etiquetas y comparadores de etiquetas

Las etiquetas identifican de forma unívoca a reglas de alerta. Vinculan las reglas de alerta con las políticas de notificaciones y los silencios, determinando qué política debe gestionarlos y qué reglas de alerta deben silenciarse.

Silencios

Detienen las notificaciones de una o más instancias de alerta. La diferencia entre un silencio y un temporizador de silencio es que el silencio dura un periodo de tiempo especificado, mientras que un temporizador de silencio se produce de forma periódica. Utiliza comparadores de etiquetas para silenciar las instancias de alerta.

Temporizadores de silencio

Especifique un intervalo de tiempo en el que no quiere que se generen o envíen nuevas notificaciones. Puede congelar las notificaciones de alerta durante periodos de tiempo recurrentes, por ejemplo, durante un periodo de mantenimiento. Deben estar vinculados a una política de notificaciones existente.

Orígenes de datos de alertas

Las alertas administradas por Grafana consultan los siguientes orígenes de datos de backend que tienen las alertas habilitadas.

  • Orígenes de datos integrados o desarrollados y mantenidos por Grafana: Alertmanager, Graphite, Prometheus (incluido Amazon Managed Service para Prometheus), Loki, InfluxDB, Amazon OpenSearch Service, Google Cloud Monitoring, Amazon CloudWatch, Azure Monitor, MySQL, PostgreSQL, MSSQL, OpenTSDB, Oracle y Azure Monitor.

Alertas sobre datos numéricos

Los datos numéricos que no están en un formato de serie temporal pueden generar una alerta directamente o convertirse en expresiones del servidor. Esto permite un mayor procesamiento y, por lo tanto, una mayor eficiencia en el origen de datos, y también puede simplificar las reglas de alerta. Al alertar sobre datos numéricos en lugar de datos de serie temporal, no es necesario reducir cada serie temporal etiquetada a un solo número. En su lugar, los números etiquetados se devuelven a Grafana.

Datos tabulares

Esta característica es compatible con los orígenes de datos de backend que consultan datos tabulares, incluidos los orígenes de datos de SQL, como MySQL, Postgres, MSSQL y Oracle.

Una consulta con alertas administradas por Grafana o expresiones del servidor se considera numérica con los siguientes orígenes de datos:

  • Si la opción Format AS está establecida en Table en la consulta del origen de datos.

  • Si la respuesta de la tabla devuelta a Grafana desde la consulta incluye solo una columna numérica (por ejemplo, int, double o float) y, opcionalmente, columnas de cadenas adicionales.

Si hay columnas de cadenas, esas columnas se convierten en etiquetas. El nombre de la columna pasa a ser el nombre de la etiqueta y el valor de cada fila pasa a ser el valor de la etiqueta correspondiente. Si se devuelven varias filas, cada fila debe identificarse de forma única por sus etiquetas.

Ejemplo

Si tiene una tabla MySQL llamada Diskspace, como la siguiente.

Tiempo Host Disk PercentFree

2021-June-7

web1

/etc

3

2021-June-7

web2

/var

4

2021-June-7

web3

/var

8

Para poder consultar los datos, filtre por tiempo, pero sin devolver la serie temporal a Grafana. Por ejemplo, una alerta que se iniciaría por host, disco cuando haya menos del 5 % de espacio libre podría tener el siguiente aspecto.

SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)

Esta consulta devuelve la siguiente respuesta de tabla a Grafana.

Host Disk PercentFree

web1

/etc

3

web2

/var

4

web3

/var

0

Cuando esta consulta se utiliza como condición en una regla de alerta, se genera una alerta en los casos en los que el valor es distinto de cero. Como resultado, se producen tres instancias de alerta, como se muestra en la siguiente tabla.

Etiquetas Status

{Host=web1,disk=/etc}

Alertas

{Host=web2,disk=/var}

Alertas

{Host=web3,disk=/var}

Normal

Alertmanager

Grafana incluye compatibilidad integrada con la instancia de Alertmanager de Prometheus. Alertmanager ayuda a agrupar y administrar las reglas de alerta y agrega una capa de orquestación sobre los motores de alertas. De forma predeterminada, las notificaciones de las alertas administradas por Grafana las gestiona la instancia de Alertmanager incrustado que forma parte del núcleo de Grafana. Puede configurar los puntos de contacto, las políticas de notificaciones y las plantillas de la instancia de Alertmanager desde la interfaz de usuario de alertas de Grafana; para ello, seleccione la opción Grafana en el menú desplegable Alertmanager.

Las alertas de Grafana admiten la configuración de la instancia externa de Alertmanager (para obtener más información sobre Alertmanager como origen de datos externo, consulte Conexión a un origen de datos de Alertmanager). Al agregar una instancia externa de Alertmanager, en el menú desplegable Alertmanager se muestra una lista de los orígenes de datos de Alertmanager externos disponibles. Seleccione un origen de datos para crear y administrar las alertas para los orígenes de datos independientes de Cortex o Loki.

Estado de las reglas de alerta

El estado de las reglas de alerta ayuda a comprender varios indicadores clave del estado de las alertas. Hay tres componentes clave: estado de alerta, estado de regla de alerta e integridad de regla de alerta. Aunque están relacionados, cada componente transmite información ligeramente diferente.

Estado de regla de alerta

  • Normal: ninguna de las series temporales devueltas por el motor de evaluación está en estado Pending o Firing.

  • Pendiente: al menos el estado de una de las series temporales devueltas por el motor de evaluación es Pending.

  • Activándose: al menos el estado de una de las series temporales devueltas por el motor de evaluación es Firing.

Estado de alerta

  • Normal: la condición de la regla de alerta no se cumple para cada serie temporal devuelta por el motor de evaluación.

  • En alerta: la condición de la regla de alerta se cumple durante al menos una serie temporal devuelta por el motor de evaluación. El periodo durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido, se cumple o se supera.

  • Pendiente: la condición de la regla de alerta se cumple durante al menos una serie temporal devuelta por el motor de evaluación. No se ha cumplido el periodo durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido.

  • NoData: la regla de alerta no ha devuelto una serie temporal, todos los valores de la serie temporal son nulos o todos los valores de la serie temporal son cero.

  • Error: se produce un error al intentar evaluar una regla de alerta.

Integridad de regla de alerta

  • Correcto: no hay ningún error al evaluar una regla de alerta.

  • Error: error al evaluar una regla de alerta.

  • NoData: ausencia de datos en al menos una serie temporal devuelta durante la evaluación de una regla.