Ridurre MTTD - Disponibilità e oltre: comprensione e miglioramento della resilienza dei sistemi distribuiti su AWS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ridurre MTTD

Ridurre la probabilità MTTD di un guasto significa scoprirlo il più rapidamente possibile. L'abbreviazione si MTTD basa sull'osservabilità o sul modo in cui hai strumentato il tuo carico di lavoro per comprenderne lo stato. I clienti devono monitorare le metriche relative all'esperienza dei clienti nei sottosistemi critici del carico di lavoro per identificare in modo proattivo quando si verifica un problema (consulta l'Appendice 1) MTTD e MTTR le metriche critiche per ulteriori informazioni su queste metriche. ). I clienti possono utilizzare Amazon CloudWatch Synthetics per creare canarini che monitorano le APIs tue console e misurare in modo proattivo l'esperienza utente. Esistono diversi altri meccanismi di controllo dello stato che possono essere utilizzati per ridurli al minimoMTTD, come i controlli di integrità di Elastic Load Balancing (ELB), i controlli di integrità di Amazon Route 53 e altro ancora. (Vedi Amazon Builders' Library — Implementazione dei controlli sanitari.)

Il monitoraggio deve inoltre essere in grado di rilevare guasti parziali sia del sistema nel suo insieme che nei singoli sottosistemi. Le metriche di disponibilità, guasto e latenza devono utilizzare la dimensionalità dei limiti di isolamento dei guasti come dimensioni metriche. CloudWatch Ad esempio, si consideri una singola EC2 istanza che fa parte di un'architettura basata su celle, in use1-az1 AZ, nella regione us-east-1, che fa parte dell'aggiornamento API del carico di lavoro che fa parte del relativo sottosistema del piano di controllo. Quando il server inserisce le proprie metriche, può utilizzare l'id dell'istanza, AZ, la regione, il nome e il nome del sottosistema come dimensioni. API Ciò consente di garantire l'osservabilità e di impostare allarmi su ciascuna di queste dimensioni per rilevare i guasti.