Criar regras de alertas gerenciadas pelo Grafana - Amazon Managed Grafana

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar regras de alertas gerenciadas pelo Grafana

Este tópico de documentação foi desenvolvido para espaços de trabalho do Grafana compatíveis com o Grafana versão 9.x.

Para espaços de trabalho do Grafana compatíveis com o Grafana versão 10.x, consulte Trabalhar no Grafana versão 10.

Para espaços de trabalho do Grafana compatíveis com o Grafana versão 8.x, consulte Trabalhar no Grafana versão 8.

O Grafana permite criar regras de alerta que consultam uma ou mais fontes de dados, reduzem ou transformam os resultados e os comparam entre si ou com limites fixos. Quando elas são executadas, o Grafana envia notificações para o ponto de contato.

Para adicionar uma regra gerenciada do Grafana
  1. No console do Grafana, no menu Grafana, escolha o ícone de Alertas (sino) para abrir a página Alertas listando os existentes.

  2. Escolha Nova regra de alerta.

  3. Na Etapa 1, adicione o nome, o tipo e o local de armazenamento da regra, da seguinte forma:

    • Em Nome da regra, adicione um nome descritivo. Esse nome é exibido na lista de regras de alerta. Também é o rótulo alertname de cada instância de alerta criada dessa regra.

    • No menu suspenso Tipo de regra, selecione Alerta gerenciado pelo Grafana.

    • No menu suspenso Pasta, selecione a pasta em que você deseja armazenar a regra. Se você não selecionar uma pasta, a regra será armazenada na pasta General. Para criar uma pasta, selecione a lista suspensa e insira um nome para a pasta.

  4. Na Etapa 2, adicione as consultas e expressões a serem avaliadas.

    • Mantenha o nome padrão ou passe o mouse sobre ele e escolha o ícone de edição para alterar o nome.

    • Para consultas, selecione uma fonte de dados no menu suspenso.

    • Adicione uma ou mais consultas ou expressões.

    • Para cada expressão, selecione a condição Clássica para criar uma única regra de alerta, ou escolha entre as opções Matemática, Redução e Reamostragem para gerar alertas separados para cada série. Para obter detalhes sobre essas opções, consulte Regras únicas e multidimensionais.

    • Escolha Executar consultas para verificar se a consulta teve êxito.

  5. Na Etapa 3, adicione as condições.

    • No menu suspenso Condição, selecione a consulta ou a expressão para iniciar a regra de alerta.

    • Em Avaliar a cada, especifique a frequência da avaliação. Deve ser um múltiplo de dez segundos. Por exemplo, 1m, 30s.

    • Em Avaliar por, especifique por quanto tempo a condição deve ser true antes que um alerta seja iniciado.

      nota

      Depois que uma condição é violada, o alerta entra no estado Pending. Se a condição permanecer violada pelo período especificado, o alerta mudará para o estado Firing. Se não for mais satisfeito, ele reverterá para o estado Normal.

    • Em Configurar tratamento de erros e ausência de dados, configure o comportamento dos alertas na ausência de dados. Use as diretrizes em Lidar com casos de erro e ausência de dados.

    • Escolha Pré-visualizar alertas para verificar o resultado da execução da consulta no momento. A pré-visualização exclui as condições de tratamento de erros e ausência de dados.

  6. Na Etapa 4, adicione outros metadados associados à regra.

    • Adicione uma descrição e um resumo para personalizar as mensagens de alerta. Use as diretrizes em Rótulos e anotações.

    • Adicione o URL, o painel, o dashboard e os IDs de alerta do runbook.

    • Adicione rótulos personalizados.

  7. Escolha Salvar para salvar a regra, ou Salvar e sair para salvar a regra e voltar para a página Alertas.

Depois de criar sua regra, você pode criar uma notificação para a regra. Para obter mais informações sobre notificações, consulte Gerenciar as notificações de alerta.

Regras únicas e multidimensionais

Para as regras de alerta gerenciadas pelo Grafana, você pode criar uma regra com uma condição clássica ou uma regra multidimensional.

Regra unidimensional (condição clássica)

Use uma expressão de condição clássica para criar uma regra que inicia um único alerta quando sua condição é atendida. Para uma consulta que retorna várias séries, o Grafana não rastreia o estado de alerta de cada série. Como resultado, o Grafana envia apenas um único alerta, mesmo quando as condições de alerta são atendidas para várias séries.

Para obter mais informações sobre como formatar expressões, consulte Expressões na documentação do Grafana.

Regra multidimensional

Para gerar uma instância de alerta separada para cada série retornada na consulta, crie uma regra multidimensional.

nota

Cada instância de alerta gerada por uma regra multidimensional conta para sua cota total de alertas. As regras não são avaliadas quando você atinge sua cota de alertas. Para obter mais informações sobre cotas para regras multidimensionais, consulte Cota alcançada de erros.

Para criar várias instâncias de uma única regra, use as expressões Math, Reduce ou Resample para criar uma regra multidimensional. Por exemplo, é possível:

  • Adicione uma expressão Reduce para cada consulta para agregar valores no intervalo de tempo selecionado em um único valor. (não é necessário para regras que usam dados numéricos).

  • Adicione uma expressão Math com a condição para a regra. Isso não é necessário no caso de uma consulta ou uma expressão de redução já retornar 0 se a regra não iniciar um alerta, ou um número positivo se ela precisar iniciar um alerta.

    Alguns exemplos:

    • $B > 70 se deve iniciar um alerta caso o valor da consulta ou expressão B seja maior que 70.

    • $B < $C * 100 caso deva iniciar um alerta se o valor de B for menor que o valor de C multiplicado por 100. Se as consultas que estão sendo comparadas tiverem várias séries em seus resultados, as séries de consultas diferentes serão correspondidas se tiverem os mesmos rótulos, ou se uma for um subconjunto da outra.

nota

O Grafana não é compatível com consultas de alerta com variáveis de modelo. Mais informações estão disponíveis na página Template variables are not supported in alert queries while setting up Alert da comunidade.

Considerações de performance para regras multidimensionais

Cada instância de alerta conta para a cota de alertas. As regras multidimensionais que criam mais instâncias do que as que podem ser acomodadas na cota de alertas não são avaliadas e retornam um erro de cota. Para ter mais informações, consulte Cota alcançada de erros.

Os alertas multidimensionais podem ter um alto impacto na performance do espaço de trabalho do Grafana, bem como na performance das fontes de dados, pois o Grafana os consulta para avaliar as regras de alertas. As considerações a seguir podem ser úteis quando você está tentando otimizar a performance do sistema de monitoramento.

  • Frequência da avaliação da regra: a propriedade Avaliar a cada de uma regra de alerta controla a frequência da avaliação da regra. Recomendamos usar a menor frequência de avaliação aceitável.

  • Cardinalidade do conjunto de resultados: o número de instâncias de alerta que você cria com uma regra afeta a performance. Suponha que você esteja monitorando os erros de resposta da API para cada caminho de API, em cada VM na sua frota. Esse conjunto tem uma cardinalidade do número de caminhos multiplicado pelo número de VMs. Você pode reduzir a cardinalidade do conjunto de resultados, por exemplo, monitorando o total de erros por VM em vez de por caminho por VM.

  • Complexidade da consulta: consultas que as fontes de dados podem processar e responder rapidamente consomem menos recursos. Embora essa consideração seja menos importante do que as outras listadas acima, se você as reduziu ao máximo, observar a performance de consultas individuais pode fazer a diferença. Você também deve estar ciente do impacto na performance que a avaliação dessas regras tem nas fontes de dados. As consultas de alerta geralmente são a grande maioria das consultas tratadas pelos bancos de dados de monitoramento, portanto, os mesmos fatores de carga que afetam a instância do Grafana também as afetam.

Cota alcançada de erros

Há uma cota para o número de instâncias de alerta que você pode ter em um único espaço de trabalho. Ao atingir esse número, você não poderá mais criar regras de alerta nesse espaço de trabalho. Com alertas multidimensionais, o número de instâncias de alerta pode variar com o tempo.

É importante lembrar os aspectos a seguir ao trabalhar com instâncias de alerta.

  • Se você criar somente regras unidimensionais, cada regra será uma única instância de alerta. Você pode criar, no máximo, o mesmo número de regras em um único espaço de trabalho que sua cota de instâncias de alerta.

  • Regras multidimensionais criam várias instâncias de alerta, no entanto, o número não é conhecido até que sejam avaliadas. Por exemplo, se você criar uma regra de alerta que rastreia o uso da CPU de suas instâncias do Amazon EC2, poderá haver 50 instâncias do EC2 quando você a criar (e, portanto, 50 instâncias de alerta), mas se você adicionar mais 10 instâncias do EC2 uma semana depois, a próxima avaliação terá 60 instâncias de alerta.

    O número de instâncias de alerta é avaliado quando você cria um alerta multidimensional, e você não pode criar um que coloque você logo acima da cota de instâncias de alerta. Como o número de instâncias de alerta pode mudar, sua cota é verificada sempre que as regras são avaliadas.

  • No momento da avaliação da regra, se uma regra fizer com que você ultrapasse sua cota para instâncias de alerta, essa regra não será avaliada até que uma atualização seja feita na regra de alerta que coloque a contagem total de instâncias de alerta abaixo da cota de serviço. Quando isso acontece, você recebe uma notificação de alerta informando que sua cota foi atingida (a notificação usa a política de notificação da regra que está sendo avaliada). A notificação inclui uma anotação de Error com o valor QuotaReachedError.

  • Uma regra que faz com que um QuotaReachedError pare de ser avaliado. A avaliação só é retomada quando uma atualização é feita e a avaliação após a atualização não causa, por si só, um QuotaReachedError. Uma regra que não está sendo avaliada mostra o erro de Cota atingida no console do Grafana.

  • Você pode reduzir o número de instâncias de alerta removendo as regras de alerta ou editando alertas multidimensionais para ter menos instâncias de alerta (por exemplo, ter um alerta sobre erros por VM, em vez de um alerta sobre erros por API em uma VM).

  • Para retomar as avaliações, atualize o alerta e salve-o. Você pode atualizá-lo para diminuir o número de instâncias de alerta ou, se tiver feito outras alterações para diminuir o número de instâncias de alerta, poderá salvá-lo sem alterações. Se puder ser retomado, ele será. Se isso causar outro QuotaReachedError, você não poderá salvá-lo.

  • Quando um alerta é salvo e retoma a avaliação sem ultrapassar a cota de alertas, o erro Cota atingida pode continuar sendo exibido no console do Grafana por algum tempo (até o intervalo de avaliação). No entanto, a avaliação da regra de alerta é iniciada e os alertas serão enviados se o limite da regra for atingido.

  • Para obter detalhes sobre a cota de alertas, bem como outras cotas, consulte Cotas de serviço do Amazon Managed Grafana.

Lidar com casos de erro e ausência de dados

Escolha opções de como lidar com o comportamento de alertas na ausência de dados ou quando há erros.

As opções para lidar com a ausência de dados são listadas na tabela a seguir.

Opção de ausência de dados Comportamento

Nenhum dado

Crie um alerta DatasourceNoData com o nome e o UID da regra de alerta e o UID da fonte de dados que não retornou dados como rótulos.

Geração de alertas

Defina o estado da regra do alerta como Alerting.

OK

Defina o estado da regra do alerta como Normal.

As opções para lidar com casos de erro são listadas na tabela a seguir.

Opção de erro ou tempo limite Comportamento

Geração de alertas

Defina o estado da regra do alerta como Alerting

OK

Defina o estado da regra do alerta como Normal

Erro

Crie um alerta DatasourceError com o nome e o UID da regra de alerta e o UID da fonte de dados que não retornou dados como rótulos.