Opzioni allarmanti con CloudWatch - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni allarmanti con CloudWatch

L'esecuzione di un'analisi automatica e automatica di metriche importanti consente di rilevare e risolvere i problemi prima che influiscano sui carichi di lavoro. CloudWatch semplifica il grafico e il confronto di più metriche utilizzando più statistiche in un determinato periodo di tempo. È possibile utilizzare CloudWatch per cercare tra tutte le metriche con i valori di dimensione richiesti per trovare le metriche necessarie per l'analisi.

Si consiglia di iniziare l'approccio di acquisizione delle metriche includendo un set iniziale di metriche e dimensioni da utilizzare come base per il monitoraggio di un carico di lavoro. Nel corso del tempo, il carico di lavoro matura e puoi aggiungere ulteriori metriche e dimensioni per aiutarti a analizzarlo e supportarlo ulteriormente. Le applicazioni o i carichi di lavoro potrebbero utilizzarne piùAWSrisorse e avere metriche personalizzate, è necessario raggruppare queste risorse in uno spazio dei nomi per renderle più facili da identificare.

È inoltre necessario considerare in che modo i dati di registrazione e monitoraggio sono correlati in modo da poter identificare rapidamente i dati di registrazione e monitoraggio pertinenti per diagnosticare problemi specifici. È possibile utilizzareServiceLens CloudWatchper correlare tracce, metriche, registri e allarmi per la diagnosi dei problemi. È inoltre consigliabile includere dimensioni aggiuntive nelle metriche e negli identificatori nei registri per i carichi di lavoro per aiutarti a cercare e identificare rapidamente i problemi tra i sistemi e i servizi.

Utilizzo di CloudWatch allarmi per il monitoraggio e allarmi

È possibile utilizzareAllarmi CloudWatchper ridurre il monitoraggio manuale dei carichi di lavoro o delle applicazioni. È necessario iniziare esaminando le metriche acquisite per ciascun componente del carico di lavoro e determinando le soglie appropriate per ogni metrica. Assicurati di identificare quali membri del team devono essere avvisati quando viene violata una soglia. È necessario stabilire e indirizzare i gruppi di distribuzione, anziché i singoli membri del team.

Gli allarmi CloudWatch possono integrarsi con la soluzione di gestione dei servizi per creare automaticamente nuovi ticket ed eseguire flussi di lavoro operativi. Ad esempio:AWSfornisce ilAWSService Management Connector perServiceNoweDesk di assistenza Jiraper aiutarti a configurare rapidamente le integrazioni. Questo approccio è fondamentale per garantire che gli allarmi sollevati siano riconosciuti e allineati ai flussi di lavoro operativi esistenti che potrebbero già essere definiti in questi prodotti.

È inoltre possibile creare più allarmi per la stessa metrica con soglie e periodi di valutazione diversi, il che aiuta a stabilire un processo di escalation. Ad esempio, in presenza diOrderQueueDepthmetrica che tiene traccia degli ordini dei clienti, è possibile definire una soglia inferiore in un breve periodo medio di un minuto che notifica i membri del team dell'applicazione via e-mail oRallentamento. È inoltre possibile definire un altro allarme per la stessa metrica per un periodo di 15 minuti più lungo alla stessa soglia e che pagine, e-mail e notifica al team di applicazione e al lead del team di applicazione. Infine, è possibile definire un terzo allarme per una soglia media rigida per un periodo di 30 minuti che notifica la gestione superiore e notifica a tutti i membri del team precedentemente notificati. La creazione di più allarmi consente di intraprendere azioni diverse per le diverse condizioni. È possibile iniziare con un semplice processo di notifica e quindi modificarlo e migliorarlo secondo necessità.

Utilizzo di CloudWatch rilevamento di anomalie da monitorare e allarme

È possibile utilizzareRilevazione delle anomalie di Cloudse non si è sicuri delle soglie da applicare per una determinata metrica o se si desidera che un allarme regola automaticamente i valori di soglia in base ai valori storici osservati. CloudWatch il rilevamento delle anomalie è particolarmente utile per le metriche che potrebbero presentare cambiamenti regolari e prevedibili nell'attività, ad esempio gli ordini di acquisto giornalieri per la consegna nello stesso giorno aumentano prima di un orario limite. Il rilevamento delle anomalie consente soglie che si regolano automaticamente e possono contribuire a ridurre i falsi allarmi. È possibile abilitare il rilevamento delle anomalie per ogni metrica e statistica e configurare CloudWatch all'allarme basato su valori anomali.

Ad esempio, è possibile abilitare il rilevamento delle anomalie per ilCPUUtilizationmetrica eAVGstatistica su un'istanza EC2. Il rilevamento delle anomalie utilizza quindi fino a 14 giorni di dati storici per creare il modello di machine learning (ML). È possibile creare più allarmi con diverse bande di rilevamento delle anomalie per stabilire un processo di escalation degli allarmi, in modo simile alla creazione di più allarmi standard con soglie diverse.

Per ulteriori informazioni su questa sezione, consultaCreazione di un allarme CloudWatch basato sul rilevamento di anomalienella CloudWatch documentazione.

Alarmante per più regioni e account

I proprietari di applicazioni e carichi di lavoro devono creare allarmi a livello di applicazione per carichi di lavoro che abbracciano più regioni. Si consiglia di creare allarmi separati all'interno di ciascun account e regione in cui è stato distribuito il carico di lavoro. È possibile semplificare e automatizzare questo processo utilizzando account e Region agnosticAWS CloudFormation StackSets e modelli per distribuire le risorse applicative con gli allarmi richiesti. modelloÈ possibile configurare le azioni di allarme per indirizzare un argomento comune Amazon Simple Notification Service (Amazon SNS), il che significa che la stessa azione di notifica o correzione viene utilizzata indipendentemente dall'account o dalla regione.

Negli ambienti multi-account e multi-regione, ti consigliamo di creare allarmi aggregati per i tuoi account e le regioni per monitorare i problemi relativi all'account e alle aree regionali utilizzandoAWS CloudFormation StackSets e metriche aggregate, come la mediaCPUUtilizationin tutte le istanze EC2.

Si consiglia inoltre di creare allarmi standard per ogni carico di lavoro configurato per lo standard CloudWatch metriche e registri acquisiti. Ad esempio, è possibile creare un allarme separato per ogni istanza EC2 che monitora la metrica di utilizzo della CPU e notifica a un team operativo centrale quando l'utilizzo medio della CPU è superiore all'80% su base giornaliera. È inoltre possibile creare un allarme standard che monitora l'utilizzo medio della CPU inferiore al 10% su base giornaliera. Questi allarmi aiutano il team operativo centrale a lavorare con specifici proprietari di carichi di lavoro per modificare le dimensioni delle istanze EC2 quando necessario.

Automatizzazione della creazione di allarmi con tag di istanza EC2

La creazione di un set standard di allarmi per le istanze EC2 può richiedere molto tempo, incoerente e soggetta a errori. È possibile accelerare il processo di creazione degli allarmi utilizzando ilamazon-cloudwatch - allarmi automaticisoluzione per creare automaticamente un set standard di allarmi CloudWatch per le istanze EC2 e creare allarmi personalizzati basati su tag di istanza EC2. La soluzione elimina la necessità di creare manualmente allarmi standard e può essere utile durante una migrazione su larga scala di istanze EC2 che utilizza strumenti come CloudEndure. È inoltre possibile distribuire questa soluzione conAWS CloudFormation StackSets per supportare più regioni e account. Per ulteriori informazioni, consultaUsa i tag per creare e gestire Amazon CloudWatch allarmi per istanze Amazon EC2sulAWSBlog.