REL06-BP01 Monitora tutti i componenti per il carico di lavoro (generazione) - Pilastro dell'affidabilità

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

REL06-BP01 Monitora tutti i componenti per il carico di lavoro (generazione)

Monitora i componenti del carico di lavoro con Amazon CloudWatch o strumenti di terze parti. Monitora AWS i servizi con AWS Health Dashboard.

Occorre monitorare tutti i componenti del carico di lavoro, inclusi front-end, logica aziendale e livelli di storage. Definisci i parametri chiave e come estrarli dai log, se necessario, e imposta soglie per richiamare gli eventi di allarme corrispondenti. Assicurati che le metriche siano pertinenti agli indicatori chiave di performance (KPIs) del tuo carico di lavoro e utilizza metriche e log per identificare i primi segnali di allarme di degrado del servizio. Ad esempio, una metrica relativa ai risultati aziendali, come il numero di ordini elaborati con successo al minuto, può indicare i problemi relativi al carico di lavoro più rapidamente di una metrica tecnica, come l'utilizzo. CPU Utilizza AWS Health Dashboard per una visualizzazione personalizzata delle prestazioni e della disponibilità dei servizi alla base delle AWS tue risorse. AWS

Il monitoraggio nel cloud offre nuove opportunità. La maggior parte dei provider di servizi cloud ha sviluppato hook personalizzabili e può fornire approfondimenti per aiutarti a monitorare più livelli del tuo carico di lavoro. AWS servizi come Amazon CloudWatch applicano algoritmi statistici e di apprendimento automatico per analizzare continuamente le metriche di sistemi e applicazioni, determinare linee di base normali e rilevare anomalie con un intervento minimo da parte dell'utente. Gli algoritmi di rilevamento delle anomalie tengono conto delle variazioni di stagionalità e di tendenza dei parametri.

AWS mette a disposizione per il consumo una grande quantità di informazioni di monitoraggio e log che possono essere utilizzate per definire metriche e processi specifici del carico di lavoro e adottare tecniche di apprendimento automatico indipendentemente dall'esperienza nel machine learning. change-in-demand

Inoltre, monitora tutti gli endpoint esterni per avere la certezza che siano indipendenti dall'implementazione di base. Questo monitoraggio attivo può essere svolto attraverso transazioni sintetiche (talvolta definite canary dell'utente, ma da non confondere con le distribuzioni canary) che eseguono periodicamente alcune attività comuni che corrispondono a quelle effettuate dai client del carico di lavoro. Mantieni queste attività di breve durata e assicurati di non sovraccaricare il carico di lavoro durante il test. Amazon CloudWatch Synthetics ti consente di creare canarini sintetici per monitorare i tuoi endpoint e. APIs Puoi anche combinare i nodi client sintetici canary con la console AWS X-Ray per individuare quali canary sintetici stanno riscontrando problemi con errori, guasti o tassi di limitazione (della larghezza di banda della rete) per l'intervallo di tempo selezionato.

Risultato desiderato:

Raccogliere e utilizzare i parametri critici di tutti i componenti del carico di lavoro per garantire l'affidabilità del carico di lavoro e un'esperienza utente ottimale. Rilevare che un carico di lavoro non sta raggiungendo i risultati aziendali consente di dichiarare rapidamente un disastro e di riprendersi da un incidente.

Anti-pattern comuni:

  • Solo monitoraggio delle interfacce esterne per il carico di lavoro.

  • Non genera parametri specifici per il carico di lavoro e si basa solo sui parametri forniti dai servizi utilizzati dal carico di lavoro. AWS

  • Utilizza solo metriche tecniche nel carico di lavoro e non monitora le metriche relative a quelle non tecniche a cui contribuisce il carico di lavoro. KPIs

  • Affidarsi al traffico di produzione e a semplici controlli dell'integrità per monitorare e valutare lo stato del carico di lavoro.

Vantaggi dell'adozione di questa best practice: il monitoraggio a tutti i livelli del carico di lavoro consente di prevedere e risolvere più rapidamente i problemi dei componenti che costituiscono il carico di lavoro.

Livello di rischio associato se questa best practice non fosse adottata: elevato

Guida all'implementazione

  1. Attiva la creazione di log, laddove possibile. I dati di monitoraggio devono essere ottenuti da tutti i componenti dei carichi di lavoro. Attiva ulteriori log, come i log di accesso S3, e consenti al carico di lavoro di creare log per i dati specifici del carico di lavoro. Raccogli i parametri CPU relativi agli I/O di rete e alle medie di I/O su disco da servizi come Amazon, ECS EKS Amazon, Elastic Load EC2 Balancing e Amazon. AWS Auto Scaling EMR Vedi AWS Servizi che pubblicano CloudWatch metriche per un elenco di servizi su cui pubblicano metriche. AWS CloudWatch

  2. Esamina tutti i parametri predefiniti ed esplora eventuali lacune nella raccolta dei dati. Tutti i servizi generano parametri predefiniti. La raccolta di parametri predefiniti consente di comprendere meglio le dipendenze tra i componenti del carico di lavoro e il modo in cui l'affidabilità e le prestazioni dei componenti influiscono sul carico di lavoro. Puoi anche creare e pubblicare le tue metriche CloudWatch utilizzando o un. AWS CLI API

  3. Valuta tutte le metriche per decidere quali avvisare per ogni AWS servizio del tuo carico di lavoro. Puoi scegliere di selezionare un sottoinsieme di parametri che hanno un impatto importante sull'affidabilità del carico di lavoro. Concentrarsi su parametri e soglie critiche consente di affinare il numero di avvisi, così da ridurre al minimo i falsi positivi.

  4. Definisci gli avvisi e il processo di recupero del carico di lavoro dopo il richiamo dell'avviso. La definizione degli avvisi consente di inviare notifiche, inoltrare e eseguire rapidamente le operazioni necessarie per riprendersi da un incidente e raggiungere l'obiettivo di tempo di ripristino prescritto (). RTO Puoi utilizzare Amazon CloudWatch Alarms per richiamare flussi di lavoro automatizzati e avviare procedure di ripristino basate su soglie definite.

  5. Esplora l'uso di transazioni sintetiche per raccogliere dati rilevanti sullo stato dei carichi di lavoro. Il monitoraggio sintetico segue gli stessi percorsi ed esegue le stesse azioni di un cliente, il che consente di verificare continuamente l'esperienza del cliente anche quando non c'è traffico di clienti sui carichi di lavoro. Grazie alle transazioni sintetiche, puoi scoprire i problemi prima che vengano rilevati dai clienti.

Risorse

Best practice correlate:

Documenti correlati:

Blog correlati:

Esempi e workshop correlati: