REL11-BP01 Monitora tutti i componenti del carico di lavoro per rilevare i guasti

Monitora costantemente lo stato del carico di lavoro, in modo che tu e i tuoi sistemi automatizzati siate consapevoli di errori o guasti non appena si verificano. Monitora gli indicatori chiave di performance (KPIs) in base al valore aziendale.

Tutti i meccanismi di ripristino e correzione devono essere in grado di rilevare rapidamente i problemi. I guasti tecnici devono essere rilevati prima in modo che possano essere risolti. Tuttavia, la disponibilità si basa sulla capacità del carico di lavoro di fornire valore aziendale, pertanto gli indicatori chiave di performance (KPIs) che misurano questo fattore devono far parte della strategia di rilevamento e correzione.

Risultato desiderato: i componenti essenziali di un carico di lavoro vengono monitorati in modo indipendente per rilevare guasti e fornire avvisi quando e dove si verificano.

Anti-pattern comuni:

Non sono stati configurati allarmi, pertanto le interruzioni si verificano senza notifica.
Gli allarmi esistono, ma a soglie che non forniscono tempo adeguato per reagire.
Le metriche non vengono raccolte abbastanza spesso per soddisfare l'obiettivo del tempo di ripristino (). RTO
Solo le interfacce del carico di lavoro rivolte al cliente vengono monitorate attivamente.
Viene effettuata solo la raccolta di parametri tecnici, senza includere quelli delle funzioni aziendali.
Non è presente alcun parametro che misuri l'esperienza utente del carico di lavoro.
Vengono creati troppi monitoraggi.

Vantaggi dell'adozione di questa best practice: eseguire un monitoraggio appropriato a tutti i livelli consente di ridurre i tempi di rilevamento, velocizzando quindi il ripristino.

Livello di rischio associato se questa best practice non fosse adottata: elevato

Guida all'implementazione

Identifica tutti i carichi di lavoro che verranno esaminati per il monitoraggio. Dopo aver identificato tutti i componenti del carico di lavoro da monitorare, devi determinare l'intervallo di monitoraggio. L'intervallo di monitoraggio ha un impatto diretto sulla velocità con cui il ripristino viene avviato, che dipende dal tempo impiegato per rilevare un errore. Il tempo medio di rilevamento (MTTD) è la quantità di tempo che intercorre tra il verificarsi di un guasto e l'inizio delle operazioni di riparazione. L'elenco dei servizi deve essere ampio e completo.

Il monitoraggio deve includere tutti i livelli dello stack applicativo, come applicazione, piattaforma, infrastruttura e rete.

La strategia di monitoraggio deve tenere in considerazione l'impatto dei guasti nell'area grigia. Per ulteriori informazioni sui guasti nell'area grigia, consulta Gray failures nel whitepaper Advanced Multi-AZ Resilience Patterns.

Passaggi dell'implementazione

L'intervallo di monitoraggio dipende dalla velocità con cui è necessario ripristinare Il tempo di ripristino dipende dal tempo necessario per il ripristino, pertanto è necessario determinare la frequenza di raccolta tenendo conto di questo tempo e dell'obiettivo del tempo di ripristino (RTO).
Configura il monitoraggio dettagliato per componenti e servizi gestiti.
- Determina se è necessario un monitoraggio dettagliato EC2 delle istanze e dell'Auto Scaling. Il monitoraggio dettagliato fornisce metriche a intervalli di un minuto, mentre il monitoraggio predefinito fornisce metriche a intervalli di cinque minuti.
- Determina se RDS è necessario un monitoraggio avanzato per. Il monitoraggio avanzato utilizza un agente sulle RDS istanze per ottenere informazioni utili su diversi processi o thread.
- Determina i requisiti di monitoraggio dei componenti serverless critici per Lambda API , Gateway, AmazonEKS, ECSAmazon e tutti i tipi di sistemi di bilanciamento del carico.
- Determina i requisiti di monitoraggio dei componenti di storage per Amazon S3, AmazonEFS, FSx Amazon e Amazon. EBS
Crea metriche personalizzate per misurare gli indicatori chiave di performance aziendali ()KPIs. I carichi di lavoro implementano funzioni aziendali chiave, che dovrebbero essere utilizzate in quanto KPIs aiutano a identificare quando si verifica un problema indiretto.
Monitora la presenza di errori nell'esperienza utente tramite le canary degli utenti Il test sintetico delle transazioni (noto anche come "test canary", ma da non confondere con le distribuzioni canary) in grado di eseguire e simulare il comportamento dei clienti è uno dei processi di test più importanti. Esegui questi test costantemente sugli endpoint del carico di lavoro da diverse posizioni remote.
Crea parametri personalizzati che monitorino l'esperienza dell'utente. Dotare l'esperienza del cliente di strumenti consente di determinare quando essa peggiora.
Imposta gli allarmi per rilevare quando una qualsiasi parte del carico di lavoro non funziona correttamente e per indicare quando effettuare il dimensionamento automatico delle risorse. Gli allarmi possono essere visualizzati visivamente sulle dashboard, inviare avvisi tramite Amazon SNS o e-mail e utilizzare Auto Scaling per aumentare o ridurre le risorse del carico di lavoro.
Crea pannelli di controllo per visualizzare i parametri. Utilizza i pannelli di controllo per visualizzare tendenze, valori anomali e altri indicatori di potenziali problemi, oppure per fornire un'indicazione dei problemi che potresti voler approfondire.
Crea il monitoraggio del tracciamento distribuito per i tuoi servizi. Con il monitoraggio distribuito puoi comprendere le prestazioni della tua applicazione e dei relativi servizi sottostanti per identificare e risolvere la causa ultima di problemi ed errori riguardanti le prestazioni.
Crea dashboard di sistemi di monitoraggio (utilizzando CloudWatcho X-Ray) e raccolta dati in una regione e in un account separati.
Crea un'integrazione per il monitoraggio di Amazon Health Aware per consentire il monitoraggio della visibilità AWS delle risorse che potrebbero presentare un deterioramento. Per i carichi di lavoro aziendali essenziali, questa soluzione fornisce l'accesso ad avvisi proattivi e in tempo reale per i servizi. AWS

Risorse

Best practice correlate:

Documenti correlati:

Video correlati:

Mitigating gray failures

Esempi correlati:

Strumenti correlati:

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Progettazione di un carico di lavoro resistente agli errori dei componenti

REL11-BP02 Fallimento verso risorse sane