REL09-BP04 Eseguire il ripristino periodico dei dati per verificare l'integrità e i processi di backup - Pilastro dell'affidabilità

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

REL09-BP04 Eseguire il ripristino periodico dei dati per verificare l'integrità e i processi di backup

Verifica che l'implementazione del processo di backup soddisfi i Recovery Time Objectives (RTO) e Recovery Point Objectives (RPO) eseguendo un test di ripristino.

Risultato desiderato: i dati dei backup vengono ripristinati periodicamente utilizzando meccanismi ben definiti per verificare che il ripristino sia possibile entro l'obiettivo di tempo di ripristino stabilito (RTO) per il carico di lavoro. Verificate che il ripristino da un backup produca una risorsa contenente i dati originali senza che nessuno di essi sia danneggiato o inaccessibile e che la perdita dei dati rientri nell'obiettivo del punto di ripristino (). RPO

Anti-pattern comuni:

  • Ripristino di un backup, ma senza eseguire query sui dati o recuperarli per verificare di poter usare il ripristino.

  • Presupporre l'esistenza di un backup.

  • Presupporre che il backup di un sistema sia pienamente operativo e che i dati possano essere recuperati da esso.

  • Supponendo che il tempo necessario per il ripristino o il ripristino dei dati da un backup rientri nel limite del carico RTO di lavoro.

  • Supponendo che i dati contenuti nel backup rientrino nel carico di lavoro RPO

  • Ripristino in base alle esigenze, senza usare un runbook o seguire una procedura automatica prestabilita.

Vantaggi derivanti dall'adozione di questa procedura ottimale: il test del ripristino dei backup consente di verificare che i dati possano essere ripristinati quando necessario senza preoccuparsi che i dati possano mancare o essere danneggiati, che il ripristino e il ripristino siano possibili all'interno del RTO carico di lavoro e che qualsiasi perdita di dati rientri nel carico di lavoro. RPO

Livello di rischio associato se questa best practice non fosse adottata: medio

Guida all'implementazione

La verifica delle capacità di backup e ripristino aumenta la fiducia nella capacità di eseguire queste azioni durante un'interruzione. Ripristina periodicamente i backup in una nuova posizione ed esegui test per verificare l'integrità dei dati. Alcuni test comuni da eseguire consistono nel verificare se tutti i dati sono disponibili, non sono danneggiati, sono accessibili e se qualsiasi perdita di dati rientra nell'ambito del RPO carico di lavoro. Tali test possono anche aiutare a verificare se i meccanismi di ripristino sono sufficientemente veloci da soddisfare il carico di lavoro. RTO

In questo modo è possibile creare un ambiente di test e ripristinare i backup per valutarne le RPO funzionalità RTO ed eseguire test sul contenuto e sull'integrità dei dati. AWS

Inoltre, Amazon RDS e Amazon DynamoDB point-in-time consentono il ripristino (). PITR Utilizzando il backup continuo, puoi ripristinare il set di dati allo stato in cui si trovava in una data e un'ora specificate.

Se tutti i dati sono disponibili, non sono danneggiati, sono accessibili e qualsiasi perdita di dati rientra nel carico di RPO lavoro. Tali test possono anche aiutare a verificare se i meccanismi di ripristino sono sufficientemente veloci da soddisfare il carico di lavoro. RTO

AWS Elastic Disaster Recovery offre istantanee di point-in-time ripristino continuo dei volumi AmazonEBS. Man mano che i server di origine vengono replicati, point-in-time gli stati vengono cronizzati nel tempo in base alla politica configurata. Elastic Disaster Recovery verifica l'integrità di questi snapshot avviando istanze per scopi di test ed esercitazione senza reindirizzare il traffico.

Passaggi dell'implementazione

  1. Identifica le origini dati di cui stai eseguendo il backup e dove sono archiviati i backup. Per le linee guida di implementazione, consulta REL09-BP01 Identifica ed esegui il backup di tutti i dati di cui è necessario eseguire il backup o riproduci i dati dalle fonti.

  2. Definisci criteri per la convalida dei dati per ciascuna origine dati. Tipi di dati differenti avranno proprietà diverse che potrebbero richiedere meccanismi di convalida diversi. Considera il modo in cui potrebbero essere convalidati questi dati prima di poterli utilizzare in produzione. Alcuni modi comuni per convalidare i dati sono l'uso delle loro proprietà dei dati e del backup, come il tipo di dati, il formato, la somma di controllo, la dimensione o la combinazione di questi elementi con una logica di convalida personalizzata. Ad esempio, può trattarsi di un confronto dei valori di checksum tra la risorsa ripristinata e l'origine dati al momento della creazione del backup.

  3. Stabilisci RTO e ripristina RPO i dati in base alla loro criticità. Per le linee guida di implementazione, consulta REL13-BP01 Definire gli obiettivi di ripristino per tempi di inattività e perdita di dati.

  4. Valuta la capacità di ripristino. Esamina la tua strategia di backup e ripristino per capire se è in grado di soddisfare le tue esigenze RTO eRPO, se necessario, adattala. AWS Resilience Hub ti consente di valutare il tuo carico di lavoro. La valutazione valuta la configurazione dell'applicazione rispetto alla politica di resilienza e segnala se RPO gli obiettivi prefissati possono essere raggiuntiRTO.

  5. Esegui un ripristino di test utilizzando i processi attualmente in uso in produzione per il ripristino dei dati. Questi processi dipendono dal modo in cui è stato eseguito il backup dell'origine dati iniziale, dal formato e dalla posizione di archiviazione del backup stesso o dalla riproduzione dei dati da altre fonti. Ad esempio, in caso di utilizzo di un servizio gestito, come AWS Backup, potrebbe essere semplice ripristinare il backup in una nuova risorsa. In caso di utilizzo di AWS Elastic Disaster Recovery , è possibile avviare un'esercitazione di ripristino.

  6. Convalida il ripristino dei dati dalla risorsa ripristinata in base ai criteri stabiliti in precedenza per la convalida dei dati. I dati ripristinati e recuperati contengono il record o la voce più recente al momento del backup? Questi dati rientrano nel carico di lavoro RPO per il carico di lavoro?

  7. Misura il tempo necessario per il ripristino e il ripristino e confrontalo con quello stabilitoRTO. Questo processo rientra nel carico RTO di lavoro? Ad esempio, confronta i timestamp dell'inizio del processo di ripristino e del completamento della convalida del ripristino per calcolare la durata del processo. Tutte le AWS API chiamate hanno una marcatura temporale e queste informazioni sono disponibili in. AWS CloudTrail Sebbene queste informazioni possano fornire dettagli sull'inizio del processo di ripristino, la logica di convalida dovrebbe registrare il timestamp finale del completamento della convalida. Se utilizzi un processo automatizzato, puoi sfruttare servizi come Amazon DynamoDB per archiviare queste informazioni. Inoltre, molti AWS servizi forniscono una cronologia degli eventi che fornisce informazioni con data e ora quando si sono verificate determinate azioni. All'interno AWS Backup, le azioni di backup e ripristino sono denominate processi e tali processi contengono informazioni sul timestamp come parte dei relativi metadati, che possono essere utilizzati per misurare il tempo necessario per il ripristino e il ripristino.

  8. Informa le parti interessate se la convalida dei dati fallisce o se il tempo necessario per il ripristino e il ripristino supera il tempo stabilito per il carico di lavoro. RTO Quando si implementa l'automazione per eseguire questa operazione, ad esempio in questo laboratorio, è possibile utilizzare servizi come Amazon Simple Notification Service (AmazonSNS) per inviare notifiche push come e-mail o SMS alle parti interessate. Questi messaggi possono anche essere pubblicati su applicazioni di messaggistica come Amazon Chime, Slack o Microsoft Teams o utilizzati per creare attività utilizzando Systems OpsItems Manager AWS. OpsCenter

  9. Automatizza questo processo per eseguirlo periodicamente. Ad esempio, è AWS Step Functions possibile utilizzare servizi come AWS Lambda o una State Machine in per automatizzare i processi di ripristino e ripristino e Amazon EventBridge può essere utilizzato per richiamare periodicamente questo flusso di lavoro di automazione, come mostrato nel diagramma di architettura seguente. Scopri come automatizzare la convalida del ripristino dei dati con. AWS Backup Inoltre, questo Well-Architected lab fornisce un'esperienza pratica su come realizzare l'automazione di alcuni dei passaggi qui descritti.

Diagramma che mostra un processo di backup e ripristino automatizzato

Figura 9. Processo di backup e ripristino automatico

Livello di impegno per il piano di implementazione: da moderato a elevato, in base alla complessità dei criteri di convalida.

Risorse

Documenti correlati:

Esempi correlati: