Opções alarmantes com o CloudWatch - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Opções alarmantes com o CloudWatch

A realização de análises únicas e automatizadas de métricas importantes ajuda a detectar e resolver problemas antes que eles afetem suas cargas de trabalho. CloudWatch facilita o gráfico e a comparação de várias métricas usando várias estatísticas em um período de tempo específico. Você pode usar CloudWatch para pesquisar em todas as métricas com os valores de dimensão necessários para encontrar as métricas necessárias para sua análise.

Recomendamos que você comece sua abordagem de captura de métricas, incluindo um conjunto inicial de métricas e dimensões para usar como linha de base para monitorar uma carga de trabalho. Com o tempo, a carga de trabalho amadurece e você pode adicionar métricas e dimensões adicionais para ajudá-lo a analisar e dar suporte a ela. Seus aplicativos ou cargas de trabalho podem usar váriosAWSrecursos e ter suas próprias métricas personalizadas, você deve agrupar esses recursos em um namespace para torná-los mais fáceis de identificar.

Você também deve considerar como os dados de registro e monitoramento são correlacionados para que você possa identificar rapidamente os dados relevantes de registro e monitoramento para diagnosticar problemas específicos. Você pode usarCloudWatch ServiceLenspara correlacionar vestígios, métricas, registros e alarmes para diagnosticar problemas. Você também deve considerar a inclusão de dimensões adicionais em métricas e identificadores em logs para suas cargas de trabalho para ajudá-lo a pesquisar e identificar problemas rapidamente entre sistemas e serviços.

O uso do CloudWatch Alarmes para monitorar e alarmar

Você pode usarAlarmes do CloudWatchpara reduzir o monitoramento manual em suas cargas de trabalho ou aplicativos. Você deve começar revisando as métricas que você está capturando para cada componente de carga de trabalho e determinar os limites apropriados para cada métrica. Certifique-se de identificar quais membros da equipe devem ser notificados quando um limite for violado. Você deve estabelecer e direcionar grupos de distribuição, em vez de membros individuais da equipe.

Os alarmes do CloudWatch podem se integrar à sua solução de gerenciamento de serviços para criar automaticamente novos tickets e executar fluxos de trabalho operacionais. Por exemplo,AWSFornece oAWSConector de gerenciamento de serviços paraServiceNoweService Desk do JiraPara ajudá-lo a configurar rapidamente integrações. Essa abordagem é fundamental para garantir que os alarmes levantados sejam reconhecidos e alinhados aos fluxos de trabalho de operações existentes que já possam estar definidos nesses produtos.

Você também pode criar vários alarmes para a mesma métrica que tem diferentes limites e períodos de avaliação, o que ajuda a estabelecer um processo de escalonamento. Por exemplo, se tiver umOrderQueueDepthmétrica que rastreia pedidos de clientes, você pode definir um limite mais baixo em um curto período médio de um minuto que notifica os membros da equipe de aplicativos por e-mail ouSlack. Você também pode definir outro alarme para a mesma métrica em um período mais longo de 15 minutos no mesmo limite e que páginas, e-mails e notifica o líder da equipe de aplicativos e da equipe de aplicativos. Finalmente, você pode definir um terceiro alarme para um limite médio difícil durante um período de 30 minutos que notifica o gerenciamento superior e notifica todos os membros da equipe notificados anteriormente. A criação de vários alarmes ajuda você a tomar ações diferentes para condições diferentes. Você pode começar com um processo de notificação simples e, em seguida, ajustá-lo e melhorá-lo conforme necessário.

O uso do CloudWatch detecção de anomalias para monitorar e alarmar

Você pode usarDetecção de anomalias do CloudWatchse você não tiver certeza sobre os limites a serem aplicados a uma determinada métrica ou se quiser que um alarme ajuste automaticamente os valores de limite com base em valores históricos observados. CloudWatch a detecção de anomalias é particularmente útil para métricas que podem ter mudanças regulares e previsíveis na atividade, por exemplo, pedidos de compra diários para entrega no mesmo dia aumentando antes de um tempo limite. A detecção de anomalias permite limites que se ajustam automaticamente e podem ajudar a reduzir alarmes falsos. Você pode habilitar a detecção de anomalias para cada métrica e estatística e configurar CloudWatch para alarme com base em outliers.

Por exemplo, você pode habilitar a detecção de anomalias para oCPUUtilizationMétrica do eAVGEstatística em uma instância do EC2. A detecção de anomalias usa até 14 dias de dados históricos para criar o modelo de aprendizado de máquina (ML). Você pode criar vários alarmes com diferentes faixas de detecção de anomalias para estabelecer um processo de escalonamento de alarme, semelhante à criação de vários alarmes padrão com diferentes limites.

Para obter mais informações sobre essa seção, consulteCriar um alarme do CloudWatch com base na detecção de anomaliasno CloudWatch documentação.

Alarmante em várias regiões e contas

Os proprietários de aplicativos e cargas de trabalho devem criar alarmes no nível do aplicativo para cargas de trabalho que abrangem várias regiões. Recomendamos criar alarmes separados em cada conta e região em que sua carga de trabalho é implantada. Você pode simplificar e automatizar esse processo usando conta e região independenteAWS CloudFormation StackSets e modelos para implantar recursos de aplicativos com os alarmes necessários. TemplateVocê pode configurar as ações de alarme para direcionar um tópico comum do Amazon Simple Notification Service (Amazon SNS), o que significa que a mesma ação de notificação ou correção é usada independentemente da conta ou região.

Em ambientes com várias contas e várias regiões, recomendamos que você crie alarmes agregados para suas contas e regiões para monitorar problemas de conta e regionais usandoAWS CloudFormation StackSets e métricas agregadas, como médiaCPUUtilizationEm todas as instâncias do EC2.

Você também deve considerar a criação de alarmes padrão para cada carga de trabalho configurada para o padrão CloudWatch métricas e registros que você captura. Por exemplo, você pode criar um alarme separado para cada instância do EC2 que monitora a métrica de utilização da CPU e notifica uma equipe de operações central quando a utilização média da CPU for superior a 80% diariamente. Você também pode criar um alarme padrão que monitora a utilização média da CPU abaixo de 10% diariamente. Esses alarmes ajudam a equipe de operações centrais a trabalhar com proprietários de carga de trabalho específicos para alterar o tamanho das instâncias do EC2 quando necessário.

Automatizar a criação de alarmes com tags de instâncias do EC2

A criação de um conjunto padrão de alarmes para suas instâncias do EC2 pode ser demorado, inconsistente e propenso a erros. Você pode acelerar o processo de criação de alarme usando oalarmes automáticos amazon-cloudwatch-solução para criar automaticamente um conjunto padrão de alarmes do CloudWatch para suas instâncias do EC2 e criar alarmes personalizados com base em tags de instância do EC2. A solução elimina a necessidade de criar alarmes padrão manualmente e pode ser útil durante uma migração em larga escala de instâncias do EC2 que usa ferramentas como o CloudEndure. Você também pode implantar essa solução comAWS CloudFormation StackSets Para oferecer suporte a várias regiões e contas. Para obter mais informações, consulteUsar tags para criar e manter a Amazon CloudWatch Alarmes para instâncias do Amazon EC2noAWSBlog.