REL09-BP04 Führen Sie eine regelmäßige Wiederherstellung der Daten durch, um die Integrität und die Prozesse des Backups zu überprüfen - Säule der Zuverlässigkeit

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

REL09-BP04 Führen Sie eine regelmäßige Wiederherstellung der Daten durch, um die Integrität und die Prozesse des Backups zu überprüfen

Stellen Sie sicher, dass Ihre Implementierung des Backup-Prozesses Ihre Ziele für die Wiederherstellungszeit (RTO) und die Zielvorgaben für den Wiederherstellungspunkt (RPO) erfüllt, indem Sie einen Wiederherstellungstest durchführen.

Gewünschtes Ergebnis: Daten aus Backups werden regelmäßig mithilfe genau definierter Mechanismen wiederhergestellt, um zu überprüfen, ob die Wiederherstellung innerhalb des festgelegten Wiederherstellungszeitziels (RTO) für den Workload möglich ist. Stellen Sie sicher, dass die Wiederherstellung aus einem Backup zu einer Ressource führt, die die Originaldaten enthält, ohne dass diese beschädigt oder unzugänglich sind und dass Daten innerhalb des Ziels für den Wiederherstellungspunkt verloren gehen ()RPO.

Typische Anti-Muster:

  • Wiederherstellung eines Backups ohne Abfrage oder Abruf von Daten, um zu überprüfen, ob die Wiederherstellung funktionsfähig ist.

  • Es wird angenommen, dass ein Backup existiert.

  • Es wird angenommen, dass das Backup eines System voll funktionsfähig ist und Daten daraus wiederhergestellt werden können.

  • Es wird davon ausgegangen, dass die Zeit für die Wiederherstellung oder Wiederherstellung von Daten aus einem Backup innerhalb der RTO für die Arbeitslast vorgesehenen Zeit liegt.

  • Unter der Annahme, dass die in der Sicherung enthaltenen Daten in den RPO für die Arbeitslast vorgesehenen Bereich fallen

  • Wiederherstellung bei Bedarf, ohne ein Runbook zu verwenden oder außerhalb eines etablierten automatisierten Verfahrens.

Vorteile der Einführung dieser bewährten Methode: Durch das Testen der Wiederherstellung der Backups wird überprüft, ob Daten bei Bedarf wiederhergestellt werden können, ohne dass man sich Sorgen machen muss, dass Daten fehlen oder beschädigt sein könnten, dass die Wiederherstellung und Wiederherstellung innerhalb der RTO für die Arbeitslast möglich ist und dass Datenverlust innerhalb der RPO für die Arbeitslast möglich ist.

Risikostufe bei fehlender Befolgung dieser bewährten Methode: Mittel

Implementierungsleitfaden

Das Testen der Sicherungs- und Wiederherstellungsfunktionen stärkt das Vertrauen in die Fähigkeit zur Durchführung dieser Aktionen während eines Ausfalls. Stellen Sie regelmäßig Backups an einem neuen Speicherort wieder her und führen Sie Tests aus, um die Datenintegrität zu überprüfen. Zu den häufigsten Tests, die durchgeführt werden sollten, gehört die Überprüfung, ob alle Daten verfügbar, nicht beschädigt oder zugänglich sind und ob Datenverlust in den Rahmen der RPO Arbeitslast fällt. Solche Tests können auch dabei helfen, festzustellen, ob die Wiederherstellungsmechanismen schnell genug sind, um den Anforderungen der Arbeitslast gerecht zu werden. RTO

Damit AWS können Sie eine Testumgebung einrichten und Ihre Backups wiederherstellen, um die RPO Funktionen zu bewerten RTO und Tests auf Dateninhalt und Integrität durchzuführen.

Darüber hinaus ermöglichen Amazon RDS und Amazon DynamoDB point-in-time Recovery ()PITR. Durch die kontinuierliche Sicherung können Sie Ihren Datensatz in den Zustand zurücksetzen, in dem er sich an einem bestimmten Datum und zu einer bestimmten Uhrzeit befand.

Wenn alle Daten verfügbar sind, nicht beschädigt sind, zugänglich sind und jeder Datenverlust in den Rahmen der Arbeitslast RPO fällt. Solche Tests können auch dabei helfen, festzustellen, ob die Wiederherstellungsmechanismen schnell genug sind, um den Anforderungen der Arbeitslast gerecht zu werden. RTO

AWS Elastic Disaster Recovery bietet kontinuierliche point-in-time Wiederherstellungs-Snapshots von EBS Amazon-Volumes. Bei der Replikation der Quellserver werden die Status point-in-time auf der Grundlage der konfigurierten Richtlinie im Laufe der Zeit aufgezeichnet. Elastic Disaster Recovery hilft Ihnen, die Integrität dieser Snapshots zu überprüfen, indem Sie Instances zu Test- und Übungszwecken starten, ohne den Datenverkehr weiterzuleiten.

Implementierungsschritte

  1. Identifizieren Sie Datenquellen, die derzeit gesichert werden, und den Speicherort dieser Backups. Eine Anleitung zur Implementierung finden Sie unter REL09-BP01 Identifizieren und sichern Sie alle Daten, die gesichert werden müssen, oder reproduzieren Sie die Daten aus Quellen.

  2. Legen Sie für jede Datenquelle Kriterien für die Datenvalidierung fest. Verschieden Datentypen können unterschiedliche Eigenschaften aufweisen und somit auch unterschiedliche Validierungsmechanismen erfordern. Überlegen Sie, wie diese Daten validiert werden können, bevor Sie sie in der Produktion einsetzen. Häufig werden für die Datenvalidierung Daten- und Sicherungseigenschaften wie Datentyp, Format, Prüfsumme, Größe oder eine Kombination dieser Eigenschaften mit einer benutzerdefinierten Validierungslogik verwendet. Ein Beispiel hierfür wäre der Vergleich der Prüfsummenwerte zwischen der wiederhergestellten Ressource und der Datenquelle zum Zeitpunkt der Erstellung des Backups.

  3. Festlegung RTO und RPO Wiederherstellung der Daten auf der Grundlage der Datenkritikalität. Eine Anleitung zur Implementierung finden Sie unter REL13-BP01 Definieren Sie Wiederherstellungsziele für Ausfallzeiten und Datenverlust.

  4. Bewerten Sie Ihre Wiederherstellungsfunktion. Überprüfen Sie Ihre Sicherungs- und Wiederherstellungsstrategie, um herauszufinden, ob sie Ihren Anforderungen gerecht wirdRPO, RTO und passen Sie die Strategie gegebenenfalls an. Mithilfe von AWS Resilience Hub können Sie eine Bewertung Ihrer Workload durchführen. Bei der Bewertung wird Ihre Anwendungskonfiguration anhand der Stabilitätsrichtlinie bewertet und es wird berichtet, ob Ihre RTO RPO Ziele erreicht werden können.

  5. Führen Sie eine Testwiederherstellung mit derzeit etablierten Prozessen durch, die in der Produktion für die Datenwiederherstellung verwendet werden. Diese Prozesse hängen davon ab, wie die ursprüngliche Datenquelle gesichert wurde sowie vom Format und der Speicherung des Backups selbst oder davon, ob die Daten aus anderen Quellen reproduziert werden. Wenn Sie beispielsweise einen verwalteten Service wie AWS Backup verwenden, kann es sich einfach um das Wiederherstellen des Backups auf einer neuen Ressource handeln. Wenn Sie AWS Elastic Disaster Recovery verwendet haben, können Sie eine Wiederherstellungsübung starten.

  6. Überprüfen Sie die Datenwiederherstellung von der wiederhergestellten Ressource anhand von Kriterien, die Sie zuvor für die Datenvalidierung festgelegt haben. Enthalten die wiederhergestellten Daten den neuesten Datensatz bzw. das neueste Element zum Zeitpunkt des Backups? Fallen diese Daten in den Bereich RPO für den Workload?

  7. Messen Sie die Zeit, die für Wiederherstellung und Wiederherstellung benötigt wird, und vergleichen Sie sie mit der von Ihnen festgestellten ZeitRTO. Fällt dieser Prozess unter RTO die Arbeitslast? Vergleichen Sie beispielsweise den Zeitstempel des Starts des Wiederherstellungsprozesses und des Abschlusses der Wiederherstellungsbewertung, um zu ermitteln, wie lange dieser Prozess dauert. Alle AWS API Anrufe sind mit einem Zeitstempel versehen und diese Informationen sind in verfügbar. AWS CloudTrail Während diese Informationen Details dazu liefern können, wann der Wiederherstellungsprozess gestartet wurde, sollte der End-Zeitstempel für den Abschluss der Validierung von der Validierungslogik aufgezeichnet werden. Wenn Sie einen automatisierten Prozess verwenden, können Services wie Amazon DynamoDB verwendet werden, um diese Informationen zu speichern. Darüber hinaus bieten viele AWS Dienste einen Ereignisverlauf, der Informationen mit Zeitstempel enthält, wann bestimmte Aktionen stattgefunden haben. Innerhalb AWS Backup werden Sicherungs- und Wiederherstellungsaktionen als Jobs bezeichnet. Diese Jobs enthalten Zeitstempelinformationen als Teil der Metadaten, anhand derer die für die Wiederherstellung und Wiederherstellung benötigte Zeit gemessen werden kann.

  8. Informieren Sie die Beteiligten, wenn die Datenvalidierung fehlschlägt oder wenn die für die Wiederherstellung und Wiederherstellung erforderliche Zeit die RTO für die Arbeitslast festgelegte Zeit überschreitet. Bei der Implementierung von Automatisierung zu diesem Zweck, wie in diesem Lab, können Dienste wie Amazon Simple Notification Service (AmazonSNS) verwendet werden, um Push-Benachrichtigungen wie E-Mails oder an Stakeholder SMS zu senden. Diese Nachrichten können auch in Messaging-Anwendungen wie Amazon Chime, Slack oder Microsoft Teams veröffentlicht oder zum Erstellen von Aufgaben wie OpsItems mit AWS Systems Manager verwendet werden. OpsCenter

  9. Automatisieren Sie diesen Prozess so, dass er regelmäßig ausgeführt wird. Beispielsweise AWS Step Functions können Dienste wie AWS Lambda oder eine State Machine in verwendet werden, um die Wiederherstellungs- und Wiederherstellungsprozesse zu automatisieren, und Amazon EventBridge kann verwendet werden, um diesen Automatisierungs-Workflow regelmäßig aufzurufen, wie im Architekturdiagramm unten dargestellt. Erfahren Sie, wie Sie die Validierung der Datenwiederherstellung mit AWS Backup automatisieren können. Darüber hinaus bietet dieses Well-Architected-Lab praktische Erfahrungen mit einer Möglichkeit, mehrere der hier beschriebenen Schritte zu automatisieren.

Diagramm: automatisierter Sicherungs- und Wiederherstellungsprozess

Abbildung 9. Ein automatisierter Sicherungs- und Wiederherstellungsprozess

Aufwand für den Implementierungsplan: Mittel bis hoch, abhängig von der Komplexität der Validierungskriterien.

Ressourcen

Zugehörige Dokumente:

Zugehörige Beispiele: