Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
REL06-BP04 Risposte automatiche (elaborazione e allarme in tempo reale)
Utilizza l'automazione per agire quando viene rilevato un evento; ad esempio, per sostituire i componenti guasti.
L'elaborazione automatizzata in tempo reale degli allarmi è implementata in modo che i sistemi possano effettuare azioni correttive rapide e tentare di prevenire guasti o danni al servizio quando vengono attivati gli allarmi. Le risposte automatiche agli allarmi potrebbero includere la sostituzione dei componenti guasti, la regolazione della capacità di calcolo, il reindirizzamento del traffico verso host integri, zone di disponibilità o altre regioni e la notifica agli operatori.
Risultato desiderato: vengono identificati gli allarmi in tempo reale e viene impostata l'elaborazione automatica degli allarmi per richiamare le azioni appropriate intraprese per mantenere gli obiettivi dei livelli di servizio e gli accordi sui livelli di servizio (). SLAs L'automazione può interessare un ambito che va dalle attività di autoriparazione dei singoli componenti al failover dell'intero sito.
Anti-pattern comuni:
-
Non disporre di un inventario o un catalogo dettagliato dei principali allarmi in tempo reale.
-
Nessuna risposta automatica in caso di allarmi critici (ad esempio, quando le risorse di calcolo stanno per esaurirsi, viene implementato il dimensionamento automatico).
-
Azioni di risposta agli allarmi contraddittorie.
-
Nessuna procedura operativa standard (SOPs) che gli operatori devono seguire quando ricevono notifiche di avviso.
-
Non monitorare le modifiche apportate alla configurazione, poiché le modifiche della configurazione non rilevate possono causare tempi di inattività per i carichi di lavoro.
-
Non avere una strategia per annullare le modifiche involontarie alla configurazione.
Vantaggi dell'adozione di questa best practice: migliore resilienza del sistema grazie all'automazione dell'elaborazione degli allarmi. Il sistema implementa automaticamente azioni correttive, riducendo le attività manuali che possono comportare interventi umani soggetti a errori. L'operatività del carico di lavoro soddisfa gli obiettivi di disponibilità e riduce le interruzioni del servizio.
Livello di rischio associato se questa best practice non fosse adottata: medio
Guida all'implementazione
Per gestire in modo efficiente gli avvisi e automatizzarne la risposta, classifica gli avvisi in base alla loro criticità e al loro impatto, documenta le procedure di risposta e pianifica le risposte prima di classificare le attività.
Identifica le attività che richiedono azioni specifiche (spesso dettagliate nei runbook) ed esamina tutti i runbook e i playbook per determinare quali attività possono essere automatizzate. Se è possibile definire delle azioni, significa che esse spesso possono essere automatizzate. Se le azioni non possono essere automatizzate, documentate le fasi manuali di un programma SOP e addestrate gli operatori su di esse. Continua ad analizzare dettagliatamente i processi manuali alla ricerca di opportunità di automazione in cui puoi stabilire e mantenere un piano per automatizzare le risposte agli avvisi.
Passaggi dell'implementazione
-
Crea un inventario degli allarmi: per ottenere un elenco di tutti gli allarmi, puoi AWS CLI
utilizzare il comando Amazon CloudWatch. describe-alarms
A seconda del numero di allarmi che hai impostato, potresti dover utilizzare l'impaginazione per recuperare un sottoinsieme di allarmi per ogni chiamata, o in alternativa puoi usare il per AWS SDK ottenere gli allarmi utilizzando una chiamata. API -
Documenta tutte le azioni associate all'allarme: aggiorna un runbook con tutti gli allarmi e le relative azioni, a prescindere che siano manuali o automatizzati. AWS Systems Manager offre runbook predefiniti. Per informazioni sull'uso dei runbook, consulta Working with runbooks. Per informazioni sulla visualizzazione dei contenuti dei runbook, consulta Visualizza il contenuto del runbook.
-
Configurazione e gestione delle azioni di allarme: per tutti gli allarmi che richiedono un'azione, specifica l'azione automatica utilizzando il. CloudWatch SDK Ad esempio, puoi modificare automaticamente lo stato delle tue EC2 istanze Amazon in base a un CloudWatch allarme creando e abilitando azioni su un allarme o disabilitando le azioni su un allarme.
Puoi anche utilizzare Amazon EventBridge
per rispondere automaticamente a eventi di sistema, come problemi di disponibilità delle applicazioni o modifiche delle risorse. Puoi creare regole che indichino a quali eventi sei interessato e quali operazioni automatizzate eseguire quando un evento corrisponde a una regola. Le azioni che possono essere avviate automaticamente includono l'invocazione di una AWS Lambda funzione, il richiamo di EC2 Run Command
Amazon, l'inoltro dell'evento ad Amazon Kinesis Data Streams e l'utilizzo di Automate Amazon . EC2 EventBridge -
Procedure operative standard (SOPs): in base ai componenti dell'applicazione, consiglia più modelli. AWS Resilience HubSOP È possibile utilizzarli SOPs per documentare tutti i processi che un operatore deve seguire nel caso in cui venga generato un avviso. È inoltre possibile crearne uno SOP basato sui consigli di Resilience Hub, in cui è necessaria un'applicazione Resilience Hub con una politica di resilienza associata, nonché una valutazione storica della resilienza rispetto a tale applicazione. I consigli per te SOP sono prodotti dalla valutazione della resilienza.
Resilience Hub collabora con Systems Manager per automatizzare le fasi del processo SOPs fornendo una serie di SSMdocumenti che è possibile utilizzare come base. SOPs Ad esempio, Resilience Hub può consigliarne uno SOP per aggiungere spazio su disco in base a un documento di automazione esistenteSSM.
-
Esegui azioni automatizzate utilizzando Amazon DevOps Guru: puoi utilizzare Amazon DevOps Guru
per monitorare automaticamente le risorse delle applicazioni alla ricerca di comportamenti anomali e fornire consigli mirati per accelerare i tempi di identificazione e risoluzione dei problemi. Con DevOps Guru, puoi monitorare flussi di dati operativi quasi in tempo reale da più fonti, tra cui Amazon CloudWatch Metrics, AWS Config , AWS CloudFormation e. AWS X-Ray Puoi anche usare DevOps Guru per creare OpsItems OpsCenter e inviare automaticamente eventi per EventBridge un'ulteriore automazione.
Risorse
Best practice correlate:
Documenti correlati:
Video correlati:
-
AWS re:Invent 2022 - Le migliori pratiche di osservabilità su Amazon
-
AWS re:Invent 2020: automatizza qualsiasi cosa con AWS Systems Manager
-
Crea sistemi di ticket personalizzati per le notifiche di Amazon DevOps Guru
-
Abilita l'aggregazione di informazioni dettagliate su più account con Amazon Guru DevOps
Esempi correlati: