Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conceptos básicos de alertas
Este tema de documentación está diseñado para los espacios de trabajo de Grafana que admiten la versión 8.x de Grafana.
Para los espacios de trabajo de Grafana que admiten la versión 10.x de Grafana, consulte Uso de la versión 10 de Grafana.
Para los espacios de trabajo de Grafana que admiten la versión 9.x de Grafana, consulte Uso de la versión 9 de Grafana.
En esta sección, se proporciona información sobre los conceptos fundamentales de las alertas de Grafana.
Conceptos relacionados con las alertas
En la siguiente tabla se describen los conceptos clave de las alertas de Grafana.
Característica o concepto clave | Definición |
---|---|
Orígenes de datos de alertas |
Seleccione los orígenes de datos desde los que desee consultar y visualizar las métricas, los registros y los rastros. |
Programador |
Evalúa las reglas de alerta; es el componente que ejecuta consultas periódicas en los orígenes de datos. Solo se aplica a las reglas administradas por Grafana. |
Alertmanager |
Administra el enrutamiento y la agrupación de las instancias de alerta. |
Regla de alerta |
Un conjunto de criterios de evaluación para determinar cuándo debe activarse una regla de alerta. Una regla de alerta consta de una o más consultas y expresiones, una condición, la frecuencia de la evaluación y el tiempo durante el cual se cumple la condición. Una regla de alerta puede generar varias instancias de alerta. |
Instancia de alerta |
Una instancia de alerta es una instancia de una regla de alerta. Una regla de alerta unidimensional tiene una instancia de alerta. Una regla de alerta multidimensional tiene una o más instancias de alerta. Una sola regla de alerta que coincide con varios resultados, como la CPU frente a 10 máquinas virtuales, se cuenta como varias instancias de alerta (en este caso, 10). Este número puede variar con el tiempo. Por ejemplo, una regla de alerta que supervisa el uso de la CPU de todas las máquinas virtuales de un sistema tiene más instancias de alerta a medida que se agregan máquinas virtuales. Para obtener más información acerca de las cuotas de las instancias de alerta, consulte Errores de cuota alcanzada. |
Grupo de alertas |
Alertmanager agrupa las instancias de alerta de forma predeterminada mediante las etiquetas de la política de notificaciones raíz. Esto controla la eliminación de duplicados y los grupos de instancias de alerta que se envían a los puntos de contacto. |
Punto de contacto |
Defina cómo se notifica a sus contactos cuando se activa una regla de alerta. |
Plantillas de mensajes |
Cree plantillas personalizadas reutilizables y utilícelas en los puntos de contacto. |
Política de notificaciones |
Conjunto de reglas sobre dónde, cuándo y cómo se agrupan las alertas y se dirigen a los puntos de contacto. |
Etiquetas y comparadores de etiquetas |
Las etiquetas identifican de forma unívoca a reglas de alerta. Vinculan las reglas de alerta con las políticas de notificaciones y los silencios, determinando qué política debe gestionarlos y qué reglas de alerta deben silenciarse. |
Silencios |
Detienen las notificaciones de una o más instancias de alerta. La diferencia entre un silencio y un temporizador de silencio es que el silencio dura un periodo de tiempo especificado, mientras que un temporizador de silencio se produce de forma periódica. Utiliza comparadores de etiquetas para silenciar las instancias de alerta. |
Temporizadores de silencio |
Especifique un intervalo de tiempo en el que no quiere que se generen o envíen nuevas notificaciones. Puede congelar las notificaciones de alerta durante periodos de tiempo recurrentes, por ejemplo, durante un periodo de mantenimiento. Deben estar vinculados a una política de notificaciones existente. |
Orígenes de datos de alertas
Las alertas administradas por Grafana consultan los siguientes orígenes de datos de backend que tienen las alertas habilitadas.
-
Orígenes de datos integrados o desarrollados y mantenidos por Grafana:
Alertmanager
,Graphite
,Prometheus
(incluido Amazon Managed Service para Prometheus),Loki
,InfluxDB
,Amazon OpenSearch Service
,Google Cloud Monitoring
,Amazon CloudWatch
,Azure Monitor
,MySQL
,PostgreSQL
,MSSQL
,OpenTSDB
,Oracle
yAzure Monitor
.
Alertas sobre datos numéricos
Los datos numéricos que no están en un formato de serie temporal pueden generar una alerta directamente o convertirse en expresiones del servidor. Esto permite un mayor procesamiento y, por lo tanto, una mayor eficiencia en el origen de datos, y también puede simplificar las reglas de alerta. Al alertar sobre datos numéricos en lugar de datos de serie temporal, no es necesario reducir cada serie temporal etiquetada a un solo número. En su lugar, los números etiquetados se devuelven a Grafana.
Datos tabulares
Esta característica es compatible con los orígenes de datos de backend que consultan datos tabulares, incluidos los orígenes de datos de SQL, como MySQL, Postgres, MSSQL y Oracle.
Una consulta con alertas administradas por Grafana o expresiones del servidor se considera numérica con los siguientes orígenes de datos:
-
Si la opción
Format AS
está establecida enTable
en la consulta del origen de datos. -
Si la respuesta de la tabla devuelta a Grafana desde la consulta incluye solo una columna numérica (por ejemplo, int, double o float) y, opcionalmente, columnas de cadenas adicionales.
Si hay columnas de cadenas, esas columnas se convierten en etiquetas. El nombre de la columna pasa a ser el nombre de la etiqueta y el valor de cada fila pasa a ser el valor de la etiqueta correspondiente. Si se devuelven varias filas, cada fila debe identificarse de forma única por sus etiquetas.
Ejemplo
Si tiene una tabla MySQL llamada Diskspace, como la siguiente.
Tiempo | Host | Disk | PercentFree |
---|---|---|---|
2021-June-7 |
web1 |
/etc |
3 |
2021-June-7 |
web2 |
/var |
4 |
2021-June-7 |
web3 |
/var |
8 |
… |
… |
… |
… |
Para poder consultar los datos, filtre por tiempo, pero sin devolver la serie temporal a Grafana. Por ejemplo, una alerta que se iniciaría por host, disco cuando haya menos del 5 % de espacio libre podría tener el siguiente aspecto.
SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)
Esta consulta devuelve la siguiente respuesta de tabla a Grafana.
Host | Disk | PercentFree |
---|---|---|
web1 |
/etc |
3 |
web2 |
/var |
4 |
web3 |
/var |
0 |
Cuando esta consulta se utiliza como condición en una regla de alerta, se genera una alerta en los casos en los que el valor es distinto de cero. Como resultado, se producen tres instancias de alerta, como se muestra en la siguiente tabla.
Etiquetas | Status |
---|---|
{Host=web1,disk=/etc} |
Alertas |
{Host=web2,disk=/var} |
Alertas |
{Host=web3,disk=/var} |
Normal |
Alertmanager
Grafana incluye compatibilidad integrada con la instancia de Alertmanager de Prometheus. Alertmanager ayuda a agrupar y administrar las reglas de alerta y agrega una capa de orquestación sobre los motores de alertas. De forma predeterminada, las notificaciones de las alertas administradas por Grafana las gestiona la instancia de Alertmanager incrustado que forma parte del núcleo de Grafana. Puede configurar los puntos de contacto, las políticas de notificaciones y las plantillas de la instancia de Alertmanager desde la interfaz de usuario de alertas de Grafana; para ello, seleccione la opción Grafana en el menú desplegable Alertmanager.
Las alertas de Grafana admiten la configuración de la instancia externa de Alertmanager (para obtener más información sobre Alertmanager como origen de datos externo, consulte Conexión a un origen de datos de Alertmanager). Al agregar una instancia externa de Alertmanager, en el menú desplegable Alertmanager se muestra una lista de los orígenes de datos de Alertmanager externos disponibles. Seleccione un origen de datos para crear y administrar las alertas para los orígenes de datos independientes de Cortex o Loki.
Estado de las reglas de alerta
El estado de las reglas de alerta ayuda a comprender varios indicadores clave del estado de las alertas. Hay tres componentes clave: estado de alerta, estado de regla de alerta e integridad de regla de alerta. Aunque están relacionados, cada componente transmite información ligeramente diferente.
Estado de regla de alerta
-
Normal: ninguna de las series temporales devueltas por el motor de evaluación está en estado
Pending
oFiring
. -
Pendiente: al menos el estado de una de las series temporales devueltas por el motor de evaluación es
Pending
. -
Activándose: al menos el estado de una de las series temporales devueltas por el motor de evaluación es
Firing
.
Estado de alerta
-
Normal: la condición de la regla de alerta no se cumple para cada serie temporal devuelta por el motor de evaluación.
-
En alerta: la condición de la regla de alerta se cumple durante al menos una serie temporal devuelta por el motor de evaluación. El periodo durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido, se cumple o se supera.
-
Pendiente: la condición de la regla de alerta se cumple durante al menos una serie temporal devuelta por el motor de evaluación. No se ha cumplido el periodo durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido.
-
NoData: la regla de alerta no ha devuelto una serie temporal, todos los valores de la serie temporal son nulos o todos los valores de la serie temporal son cero.
-
Error: se produce un error al intentar evaluar una regla de alerta.
Integridad de regla de alerta
-
Correcto: no hay ningún error al evaluar una regla de alerta.
-
Error: error al evaluar una regla de alerta.
-
NoData: ausencia de datos en al menos una serie temporal devuelta durante la evaluación de una regla.