Monitoraggio delle risorse del carico di lavoro - Pilastro dell'affidabilità

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitoraggio delle risorse del carico di lavoro

I log e le metriche sono strumenti molto efficaci per ottenere informazioni sullo stato del carico di lavoro. Puoi configurare il carico di lavoro in modo da monitorare i log e le metriche e inviare notifiche in caso di superamento delle soglie o di eventi significativi. Il monitoraggio permette al carico di lavoro di riconoscere il superamento delle soglie di prestazioni basse o il verificarsi di errori, in modo da ripristinarlo in automatico di conseguenza.

Il monitoraggio è essenziale per accertarti di soddisfare i requisiti di disponibilità. Il monitoraggio deve rilevare in modo efficace gli errori. La modalità di errore peggiore è l'errore "silenzioso", in cui la funzionalità non è più attiva, ma non c'è modo di rilevarla se non indirettamente. I tuoi clienti se ne accorgono prima di te. L'avviso in caso di problemi è uno dei principali motivi per cui esegui il monitoraggio. I tuoi avvisi devono essere disaccoppiati dal tuo sistema il più possibile. Se l'interruzione del servizio elimina la funzionalità di avviso, avrai un periodo di interruzione più lungo.

In AWS, strumentiamo le nostre applicazioni a più livelli. Registriamo latenza, tassi di errore e disponibilità per ciascuna richiesta, per tutte le dipendenze e per le operazioni chiave all'interno del processo. Registriamo anche metriche di operazioni di successo. In questo modo vediamo i problemi imminenti prima che si verifichino. Non consideriamo solo la latenza media. Ci concentriamo ancora di più sui valori anomali di latenza, ad esempio il 99,9° e il 99,99° percentile. Questo perché se una richiesta su 1.000 o 10.000 è lenta, l'esperienza sarà comunque insoddisfacente. Inoltre, anche se la media può essere accettabile, se una richiesta su 100 provoca una latenza estrema, ciò diventerà un problema man mano che il traffico cresce.

Il monitoraggio si AWS compone di quattro fasi distinte:

  1. Generazione: monitora tutti i componenti per il carico di lavoro

  2. Aggregazione: definisci e calcola i parametri

  3. Elaborazione in tempo reale e allarmi: invia notifiche e automatizza le risposte

  4. Archiviazione e analisi