AWS Resilience Hub concetti - AWS Hub di resilienza

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Resilience Hub concetti

Questi concetti possono aiutarvi a comprendere meglio l' AWS Resilience Hub approccio adottato per migliorare la resilienza delle applicazioni e prevenire le interruzioni delle applicazioni.

Resilienza

La capacità di mantenere la disponibilità e di riprendersi da interruzioni del software e dell'operatività in un determinato periodo di tempo.

Obiettivo del punto di ripristino () RPO

Il periodo di tempo massimo accettabile dall'ultimo punto di ripristino dei dati. Questo determina ciò che si considera una perdita di dati accettabile tra l'ultimo punto di ripristino e l'interruzione del servizio.

Obiettivo del tempo di ripristino (RTO)

Il ritardo massimo accettabile tra l'interruzione del servizio e il ripristino del servizio. Questo determina ciò che viene considerato un intervallo di tempo accettabile in caso di indisponibilità del servizio.

Obiettivo stimato del tempo di ripristino del carico di lavoro

L'obiettivo stimato in termini di tempo di ripristino del carico di lavoro (carico di lavoro stimatoRTO) è l'obiettivo stimato RTO che l'applicazione raggiungerà in base alla definizione dell'applicazione importata e quindi eseguirà una valutazione.

Obiettivo stimato del punto di ripristino del carico di lavoro

L'obiettivo stimato del punto di ripristino del carico di lavoro (carico di lavoro stimatoRPO) è l'obiettivo stimato RPO che l'applicazione raggiungerà in base alla definizione dell'applicazione importata e quindi eseguirà una valutazione.

Applicazione

Un' AWS Resilience Hub applicazione è una raccolta di risorse AWS supportate che vengono continuamente monitorate e valutate per gestirne il livello di resilienza.

Componente dell'applicazione

Un gruppo di AWS risorse correlate che funzionano e falliscono come unità singola. Ad esempio, se avete un database primario e uno di replica, entrambi i database appartengono allo stesso componente applicativo (AppComponent).

AWS Resilience Hub determina quali AWS risorse possono appartenere a quale tipo di AppComponent. Ad esempio, a DBInstance può appartenere a AWS::ResilienceHub::DatabaseAppComponent ma non aAWS::ResilienceHub::ComputeAppComponent.

Stato di conformità dell'applicazione

AWS Resilience Hub riporta i seguenti tipi di stato di conformità per le applicazioni.

Politica soddisfatta

Si stima che l'applicazione soddisfi RTO gli RPO obiettivi definiti nella politica. Tutti i suoi componenti soddisfano gli obiettivi politici definiti. Ad esempio, hai selezionato un RTO RPO obiettivo di 24 ore per le interruzioni in tutte le AWS regioni. AWS Resilience Hub puoi vedere che i tuoi backup vengono copiati nella tua regione di riserva. È comunque necessario mantenere un ripristino da una procedura operativa standard di backup (SOP) e testarlo e cronometrarlo. Questo è incluso nelle raccomandazioni operative e fa parte del punteggio di resilienza complessivo.

Politica violata

Non è stato possibile stimare che l'applicazione soddisfi RTO gli RPO obiettivi definiti nella politica. Una o più delle sue AppComponents applicazioni non soddisfano gli obiettivi politici. Ad esempio, è stato selezionato un RTO RPO obiettivo di 24 ore per le interruzioni tra le AWS regioni, ma la configurazione del database non include alcun metodo di ripristino interregionale, come la replica globale e le copie di backup.

Non valutato

La domanda richiede una valutazione. Al momento non è valutata o tracciata.

Modifiche rilevate

Esiste una nuova versione pubblicata dell'applicazione che non è stata ancora valutata.

Rilevamento delle deviazioni

AWS Resilience Hub esegue una notifica di drift mentre esegue una valutazione dell'applicazione per verificare se le modifiche alle AppComponent configurazioni hanno influito sullo stato di conformità dell'applicazione. Inoltre, controlla e rileva anche modifiche come l'aggiunta o l'eliminazione di risorse all'interno delle fonti di input dell'applicazione e invia notifiche in merito. A scopo di confronto, AWS Resilience Hub utilizza la valutazione precedente in cui il componente dell'applicazione soddisfaceva la politica. AWS Resilience Hub rileva i seguenti tipi di derive:

  • Deviazione delle politiche applicative: questo tipo di deriva identifica tutte quelle AppComponents che erano conformi alla policy nella valutazione precedente ma che non erano conformi nella valutazione corrente.

  • Deriva delle risorse dell'applicazione: questo tipo di deriva identifica tutte le risorse alla deriva nella versione corrente dell'applicazione.

Valutazione della resilienza

AWS Resilience Hub utilizza un elenco di lacune e potenziali rimedi per misurare l'efficacia di una politica selezionata per riprendersi e continuare dopo un disastro. Valuta ogni componente dell'applicazione o lo stato di conformità dell'applicazione alla policy. Questo rapporto include raccomandazioni per l'ottimizzazione dei costi e riferimenti a potenziali problemi.

Punteggio di resilienza

AWS Resilience Hub genera un punteggio che indica quanto attentamente l'applicazione segue i nostri consigli per soddisfare la politica di resilienza, gli allarmi, le procedure operative standard (SOPs) e i test dell'applicazione.

Tipo di interruzione

AWS Resilience Hub ti aiuta a valutare la resilienza rispetto ai seguenti tipi di interruzioni:

Applicazione

L'infrastruttura è integra, ma lo stack di applicazioni o software non funziona come necessario. Ciò può verificarsi dopo l'implementazione di nuovo codice, le modifiche alla configurazione, il danneggiamento dei dati o il malfunzionamento delle dipendenze a valle.

Infrastruttura cloud

L'infrastruttura cloud non funziona come previsto a causa di un'interruzione. Un'interruzione può verificarsi a causa di un errore locale in uno o più componenti. Nella maggior parte dei casi, questo tipo di interruzione viene risolto riavviando, riciclando o ricaricando i componenti difettosi.

Interruzione dell'infrastruttura Cloud AZ

Una o più zone di disponibilità non sono disponibili. Questo tipo di interruzione può essere risolto passando a una zona di disponibilità diversa.

Incidente relativo alla regione dell'infrastruttura cloud

Una o più regioni non sono disponibili. Questo tipo di incidente può essere risolto passando a un altro Regione AWS.

Esperimenti di iniezione di errori

AWS Resilience Hub consiglia di eseguire test per verificare la resilienza delle applicazioni rispetto a diversi tipi di interruzioni. Queste interruzioni includono applicazioni, infrastrutture, zone di disponibilità (AZ) o Regione AWS incidenti relativi ai componenti dell'applicazione.

Questi esperimenti consentono di effettuare le seguenti operazioni:

  • Iniettare un errore.

  • Verifica che gli allarmi siano in grado di rilevare un'interruzione.

  • Verificate che le procedure di ripristino, o le procedure operative standard (SOPs), funzionino correttamente per ripristinare l'applicazione dall'interruzione.

Test per SOPs misurare il carico di lavoro stimato RTO e il carico di lavoro stimato. RPO È possibile testare diverse configurazioni delle applicazioni e misurare se l'output RTO RPO soddisfa gli obiettivi definiti nella politica.

SOP

Una procedura operativa standard (SOP) è una serie di passaggi prescrittivi progettati per ripristinare in modo efficiente l'applicazione in caso di interruzione o allarme. In base alla valutazione dell'applicazione, AWS Resilience Hub consiglia una serie di opzioni SOPs e si consiglia di prepararle, testarle e SOPs misurarle prima di un'interruzione per garantire un ripristino tempestivo.