Fundamentos de alertas - Amazon Managed Grafana

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Fundamentos de alertas

Este tópico de documentação foi desenvolvido para espaços de trabalho do Grafana que oferecem suporte ao Grafana versão 8.x.

Para espaços de trabalho do Grafana que suportam a versão 10.x do Grafana, consulte. Trabalhando na versão 10 do Grafana

Para espaços de trabalho do Grafana que suportam a versão 9.x do Grafana, consulte. Trabalhando na versão 9 do Grafana

Esta seção fornece informações sobre os conceitos fundamentais do alerta da Grafana.

Conceitos de alerta

A tabela a seguir descreve os principais conceitos dos alertas da Grafana.

Conceito ou característica chave Definição

Fontes de dados para alertas

Selecione as fontes de dados das quais você deseja consultar e visualizar métricas, registros e rastreamentos.

Scheduler

Avalia suas regras de alerta; o componente que periodicamente executa consultas em fontes de dados. É aplicável apenas às regras gerenciadas pela Grafana.

Gerenciador de alertas

Gerencia o roteamento e o agrupamento de instâncias de alerta.

Regra de alerta

Um conjunto de critérios de avaliação para quando uma regra de alerta deve ser acionada. Uma regra de alerta consiste em uma ou mais consultas e expressões, uma condição, a frequência da avaliação e a duração em que a condição é atendida. Uma regra de alerta pode produzir várias instâncias de alerta.

Instância de alerta

Uma instância de alerta é uma instância de uma regra de alerta. Uma regra de alerta unidimensional tem uma instância de alerta. Uma regra de alerta multidimensional tem uma ou mais instâncias de alerta. Uma única regra de alerta que corresponda a vários resultados, como CPU em 10 VMs, é contabilizada como várias (neste caso, 10) instâncias de alerta. Esse número pode variar com o tempo. Por exemplo, uma regra de alerta que monitora o uso da CPU para todas as VMs em um sistema tem mais instâncias de alerta à medida que as VMs são adicionadas. Para obter mais informações sobre cotas de instância de alerta, consulte. Erros de cota atingida

Grupo de alerta

O Alertmanager agrupa instâncias de alerta por padrão usando os rótulos da política de notificação raiz. Isso controla a desduplicação e os grupos de instâncias de alerta que são enviadas aos pontos de contato.

Ponto de contato

Defina como seus contatos são notificados quando uma regra de alerta é acionada.

Modelagem de mensagens

Crie modelos personalizados reutilizáveis e use-os em pontos de contato.

Política de notificação

Conjunto de regras para onde, quando e como os alertas são agrupados e encaminhados para os pontos de contato.

Etiquetas e combinadores de etiquetas

Os rótulos identificam de forma exclusiva as regras de alerta. Eles vinculam as regras de alerta às políticas e silêncios de notificação, determinando qual política deve lidar com elas e quais regras de alerta devem ser silenciadas.

Silêncios

Interrompa as notificações de uma ou mais instâncias de alerta. A diferença entre um tempo de silêncio e um tempo de silêncio é que o silêncio dura por uma janela de tempo específica em que um tempo de silêncio acontece em uma programação recorrente. Usa marcadores de etiquetas para silenciar instâncias de alerta.

Horários de silenciar

Especifique um intervalo de tempo em que você não deseja que novas notificações sejam geradas ou enviadas. Você pode congelar as notificações de alerta por períodos recorrentes, como durante um período de manutenção. Deve estar vinculado a uma política de notificação existente.

Fontes de dados de alertas

Os alertas gerenciados pela Grafana consultam as seguintes fontes de dados de back-end que têm o alerta ativado.

  • Fontes de dados incorporadas ou desenvolvidas e mantidas pela Grafana:Alertmanager,Graphite, Prometheus (incluindo o Amazon Managed Service for Prometheus),,,Loki,InfluxDB,Amazon OpenSearch Service,Google Cloud Monitoring,,Amazon CloudWatch, Azure MonitorMySQL, e. PostgreSQL MSSQL OpenTSDB Oracle Azure Monitor

Alertas sobre dados numéricos

Os dados numéricos que não estão em um formato de série temporal podem ser alertados diretamente ou passados para as expressões do lado do servidor. Isso permite mais processamento e eficiência resultante na fonte de dados, além de simplificar as regras de alerta. Ao alertar sobre dados numéricos em vez de dados de séries temporais, não há necessidade de reduzir cada série temporal rotulada em um único número. Em vez disso, os números rotulados são devolvidos à Grafana.

Dados tabulares

Esse recurso é compatível com fontes de dados de back-end que consultam dados tabulares, incluindo fontes de dados SQL, como MySQL, Postgres, MSSQL e Oracle.

Uma consulta com alertas gerenciados pelo Grafana ou expressões do lado do servidor é considerada numérica com essas fontes de dados:

  • Se a Format AS opção estiver definida como Table na consulta da fonte de dados.

  • Se a resposta da tabela retornada ao Grafana a partir da consulta incluir apenas uma coluna numérica (por exemplo, int, double ou float) e, opcionalmente, colunas de string adicionais.

Se houver colunas de string, essas colunas se tornarão rótulos. O nome da coluna se torna o nome do rótulo e o valor de cada linha se torna o valor do rótulo correspondente. Se várias linhas forem retornadas, cada linha deverá ser identificada exclusivamente por seus rótulos.

Exemplo

Se você tiver uma tabela MySQL chamada Diskspace, faça o seguinte.

Tempo Host Disk PercentFree

7 de junho de 2021

web1

/etc

3

7 de junho de 2021

web2

/var

4

7 de junho de 2021

web3

/var

8

Você pode consultar a filtragem de dados a tempo, mas sem retornar a série temporal ao Grafana. Por exemplo, um alerta que seria iniciado por host, disco quando houvesse menos de 5% de espaço livre poderia ter a seguinte aparência.

SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)

Essa consulta retorna a seguinte resposta da tabela para Grafana.

Host Disk PercentFree

web1

/etc

3

web2

/var

4

web3

/var

0

Quando essa consulta é usada como condição em uma regra de alerta, os casos em que o valor é diferente de zero alertam. Como resultado, três instâncias de alerta são produzidas, conforme a tabela a seguir.

Rótulos Status

{host = Web1, disco =/etc}

Geração de alertas

{host = Web2, disco =/var}

Geração de alertas

{host = Web3, disco =/var}

Normal

Gerenciador de alertas

O Grafana inclui suporte integrado para o Prometheus Alertmanager. O Alertmanager ajuda a agrupar e gerenciar as regras de alerta, adicionando uma camada de orquestração sobre os mecanismos de alerta. Por padrão, as notificações dos alertas gerenciados do Grafana são gerenciadas pelo Alertmanager incorporado, que faz parte do núcleo do Grafana. Você pode configurar os pontos de contato, as políticas de notificação e os modelos do Alertmanager na interface de alerta do Grafana selecionando a opção Grafana no menu suspenso Alertmanager.

O alerta Grafana tem suporte para configuração externa do Alertmanager (para obter mais informações sobre o Alertmanager como fonte de dados externa, consulte). Conecte-se a uma fonte de dados do Alertmanager Quando você adiciona um Alertmanager externo, o menu suspenso Alertmanager mostra uma lista de fontes de dados externas disponíveis do Alertmanager. Selecione uma fonte de dados para criar e gerenciar alertas para fontes de dados autônomas do Cortex ou Loki.

Estado e integridade das regras de alerta

O estado e a integridade das regras de alerta ajudam você a entender vários indicadores-chave de status sobre seus alertas. Há três componentes principais: estado do alerta, estado da regra de alerta e integridade da regra de alerta. Embora relacionado, cada componente transmite informações ligeiramente diferentes.

Estado da regra de alerta

  • Normal — Nenhuma das séries temporais retornadas pelo mecanismo de avaliação está em um Firing estado Pending ou.

  • Pendente — Pelo menos uma das séries temporais retornadas pelo mecanismo de avaliação éPending.

  • Acionamento — Pelo menos uma das séries temporais retornadas pelo mecanismo de avaliação éFiring.

Estado de alerta

  • Normal — A condição da regra de alerta é falsa para cada série temporal retornada pelo mecanismo de avaliação.

  • Alerta — A condição da regra de alerta é verdadeira para pelo menos uma série temporal retornada pelo mecanismo de avaliação. A duração durante a qual a condição deve ser verdadeira antes que um alerta seja iniciado, se definido, seja atendido ou tenha sido excedido.

  • Pendente — A condição da regra de alerta é verdadeira para pelo menos uma série temporal retornada pelo mecanismo de avaliação. A duração pela qual a condição deve ser verdadeira antes do início de um alerta, se definida, não foi atendida.

  • NoData— A regra de alerta não retornou uma série temporal, todos os valores da série temporal são nulos ou todos os valores da série temporal são zero.

  • Erro — Erro ao tentar avaliar uma regra de alerta.

Integridade da regra de alerta

  • Ok — Não há erro ao avaliar uma regra de alerta.

  • Erro — Erro ao avaliar uma regra de alerta.

  • NoData— A ausência de dados em pelo menos uma série temporal retornada durante a avaliação de uma regra.