Opzioni allarmanti con CloudWatch - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni allarmanti con CloudWatch

L'esecuzione di un'analisi una tantum e automatizzata di metriche importanti consente di rilevare e risolvere i problemi prima che influiscano sui carichi di lavoro. CloudWatch semplifica la creazione di grafici e il confronto di più metriche utilizzando più statistiche in un periodo di tempo specifico. Puoi utilizzarlo CloudWatch per cercare tra tutte le metriche con i valori di dimensione richiesti per trovare le metriche necessarie per l'analisi.

Ti consigliamo di iniziare l'approccio di acquisizione delle metriche includendo un set iniziale di metriche e dimensioni da utilizzare come base per il monitoraggio di un carico di lavoro. Nel tempo, il carico di lavoro matura e puoi aggiungere metriche e dimensioni aggiuntive per aiutarti ad analizzarlo e supportarlo ulteriormente. Le tue applicazioni o i tuoi carichi di lavoro potrebbero utilizzare più AWS risorse e avere metriche personalizzate, dovresti raggruppare queste risorse in un namespace per facilitarne l'identificazione.

È inoltre necessario considerare in che modo i dati di registrazione e monitoraggio sono correlati in modo da poter identificare rapidamente i dati di registrazione e monitoraggio pertinenti per diagnosticare problemi specifici. È possibile utilizzare la mappa di AWS X-Ray traccia per correlare tracce, metriche, registri e allarmi per la diagnosi dei problemi. Dovresti anche prendere in considerazione l'inclusione di dimensioni aggiuntive nelle metriche e negli identificatori nei log per i tuoi carichi di lavoro per aiutarti a cercare e identificare rapidamente i problemi tra sistemi e servizi.

Utilizzo degli allarmi per monitorare e CloudWatch avvisare

È possibile utilizzare gli CloudWatch allarmi per ridurre il monitoraggio manuale dei carichi di lavoro o delle applicazioni. Dovresti iniziare esaminando le metriche che stai acquisendo per ogni componente del carico di lavoro e determinare le soglie appropriate per ogni metrica. Assicurati di identificare quali membri del team devono essere avvisati quando viene superata una soglia. È necessario stabilire e indirizzare i gruppi di distribuzione, anziché i singoli membri del team.

CloudWatch gli allarmi possono integrarsi con la soluzione di gestione dei servizi per creare automaticamente nuovi ticket ed eseguire flussi di lavoro operativi. Ad esempio, AWS fornisce il AWS Service Management Connector per ServiceNowe per aiutarti AWS Service Management Connectora configurare rapidamente le integrazioni. Questo approccio è fondamentale per garantire che gli allarmi generati vengano riconosciuti e allineati ai flussi di lavoro operativi esistenti che potrebbero essere già definiti in questi prodotti.

Puoi anche creare più allarmi per la stessa metrica con soglie e periodi di valutazione diversi, il che aiuta a stabilire un processo di escalation. Ad esempio, se disponi di una OrderQueueDepth metrica che tiene traccia degli ordini dei clienti, potresti definire una soglia inferiore su un breve periodo medio di un minuto per avvisare i membri del team di applicazione tramite e-mail o Slack. Puoi anche definire un altro allarme per la stessa metrica per un periodo più lungo di 15 minuti alla stessa soglia e che invii pagine, invii e-mail e notifiche al team dell'applicazione e al responsabile del team dell'applicazione. Infine, è possibile definire un terzo allarme per una soglia media fissa su un periodo di 30 minuti che avvisi i dirigenti superiori e avvisi tutti i membri del team precedentemente informati. La creazione di più allarmi consente di intraprendere azioni diverse per condizioni diverse. Puoi iniziare con un semplice processo di notifica e poi modificarlo e migliorarlo secondo necessità.

Utilizzo del rilevamento delle CloudWatch anomalie per il monitoraggio e l'allarme

Puoi utilizzare il rilevamento delle CloudWatch anomalie se non sei sicuro delle soglie da applicare per una particolare metrica o se desideri che un allarme regoli automaticamente i valori di soglia in base ai valori storici osservati. CloudWatch il rilevamento delle anomalie è particolarmente utile per le metriche che potrebbero comportare cambiamenti di attività regolari e prevedibili, ad esempio l'aumento degli ordini di acquisto giornalieri per la consegna in giornata prima di un orario limite. Il rilevamento delle anomalie abilita soglie che si adattano automaticamente e può aiutare a ridurre i falsi allarmi. Puoi abilitare il rilevamento delle anomalie per ogni metrica e statistica e configurare un allarme in base ai valori anomali. CloudWatch

Ad esempio, puoi abilitare il rilevamento delle anomalie per la CPUUtilization metrica e la statistica su un'istanza. AVG EC2 Il rilevamento delle anomalie utilizza quindi fino a 14 giorni di dati storici per creare il modello di machine learning (ML). È possibile creare più allarmi con diverse bande di rilevamento delle anomalie per stabilire un processo di intensificazione degli allarmi, simile alla creazione di più allarmi standard con soglie diverse.

Per ulteriori informazioni su questa sezione, consulta Creazione di un CloudWatch allarme basato sul rilevamento delle anomalie nella documentazione. CloudWatch

Allarmi in più regioni e account

I proprietari di applicazioni e carichi di lavoro devono creare allarmi a livello di applicazione per carichi di lavoro che si estendono su più regioni. Ti consigliamo di creare allarmi separati all'interno di ogni account e regione in cui viene distribuito il carico di lavoro. Puoi semplificare e automatizzare questo processo utilizzando modelli e modelli indipendenti dall'account e dalla regione per distribuire le risorse AWS CloudFormation StackSets applicative con gli allarmi richiesti. templateYou può configurare le azioni di allarme per indirizzare un argomento comune di Amazon Simple Notification Service (AmazonSNS), il che significa che viene utilizzata la stessa notifica o azione di correzione indipendentemente dall'account o dalla regione.

In ambienti con più account e più regioni, ti consigliamo di creare allarmi aggregati per i tuoi account e le tue regioni per monitorare i problemi relativi agli account e alle regioni utilizzando AWS CloudFormation StackSets e aggregare metriche, come la media di tutte le istanze. CPUUtilization EC2

Dovresti anche prendere in considerazione la creazione di allarmi standard per ogni carico di lavoro configurato per le metriche e i log standard acquisiti. CloudWatch Ad esempio, puoi creare un allarme separato per ogni EC2 istanza che monitora la metrica di CPU utilizzo e avvisa un team operativo centrale quando l'CPUutilizzo medio supera l'80% su base giornaliera. È inoltre possibile creare un allarme standard che monitori l'CPUutilizzo medio al di sotto del 10% su base giornaliera. Questi allarmi aiutano il team operativo centrale a collaborare con proprietari di carichi di lavoro specifici per modificare le dimensioni delle istanze quando necessario. EC2

Automatizzazione della creazione di allarmi con i tag delle istanze EC2

La creazione di un set standard di allarmi per le EC2 istanze può richiedere molto tempo, essere incoerente e soggetta a errori. Puoi accelerare il processo di creazione degli allarmi utilizzando la amazon-cloudwatch-auto-alarmssoluzione per creare automaticamente un set standard di CloudWatch allarmi per le tue EC2 istanze e creare allarmi personalizzati basati sui tag delle istanze. EC2 La soluzione elimina la necessità di creare manualmente allarmi standard e può essere utile durante una migrazione su larga scala di EC2 istanze che utilizza strumenti come. CloudEndure È inoltre possibile implementare questa soluzione AWS CloudFormation StackSets per supportare più regioni e account. Per ulteriori informazioni, consulta Utilizzare i tag per creare e gestire CloudWatch allarmi Amazon per le EC2 istanze Amazon sul AWS blog.