REL 1: Wie unterstützen Sie Bereitstellungen von Hochverfügbarkeitsarchitekturen (HA)?REL 2: Wie erreichen Sie Ihre Recovery Point Objectives (RPOs)? ElastiCache REL 3: Wie unterstützen Sie die Anforderungen an Disaster Recovery (DR, Notfallwiederherstellung)?REL 4: Wie planen Sie Failovers effektiv?REL 5: Sind Ihre ElastiCache Komponenten so konzipiert, dass sie skalierbar sind?

Säule der Zuverlässigkeit von Amazon ElastiCache Well-Architected Lens

Die Säule Zuverlässigkeit konzentriert sich auf Workloads, die ihre beabsichtigten Funktionen ausführen, und darauf, wie sie sich nach einem Ausfall schnell erholen können, um die Anforderungen zu erfüllen. Zu den wichtigsten Themen gehören der Entwurf verteilter Systeme, die Wiederherstellungsplanung und die Anpassung an sich ändernde Anforderungen.

Themen

REL 1: Wie unterstützen Sie Bereitstellungen von Hochverfügbarkeitsarchitekturen (HA)?
REL 2: Wie erreichen Sie Ihre Recovery Point Objectives (RPOs)? ElastiCache
REL 3: Wie unterstützen Sie die Anforderungen an Disaster Recovery (DR, Notfallwiederherstellung)?
REL 4: Wie planen Sie Failovers effektiv?
REL 5: Sind Ihre ElastiCache Komponenten so konzipiert, dass sie skalierbar sind?

REL 1: Wie unterstützen Sie Bereitstellungen von Hochverfügbarkeitsarchitekturen (HA)?

Question-level Einführung: Wenn Sie die Hochverfügbarkeitsarchitektur von Amazon verstehen, können ElastiCache Sie bei Verfügbarkeitsereignissen in einem stabilen Zustand arbeiten.

Question-level Vorteil: Wenn Sie Ihre ElastiCache Cluster so gestalten, dass sie ausfallsicher sind, ist eine höhere Verfügbarkeit Ihrer ElastiCache Bereitstellungen gewährleistet.

[Erforderlich] Ermitteln Sie das Maß an Zuverlässigkeit, das Sie für Ihren ElastiCache Cluster benötigen. Verschiedene Workloads haben unterschiedliche Resilienzstandards, von rein kurzlebigen bis hin zu geschäftskritischen Workloads. Definieren Sie die Anforderungen für jede Art von Umgebung, die Sie betreiben, z. B. Entwicklung, Test und Produktion.

Caching-Engine: ElastiCache für Memcached im Vergleich zu Valkey und ElastiCache Redis OSS
1. ElastiCache für Memcached bietet keinen Replikationsmechanismus und wird hauptsächlich für kurzlebige Workloads verwendet.
2. ElastiCache für Valkey und Redis bietet OSS HA-Funktionen, die im Folgenden beschrieben werden
[Am besten] Verwenden Sie ElastiCache für Workloads, die HA erfordern, den Clustermodus mit mindestens zwei Replikaten pro Shard, auch für Workloads mit geringem Durchsatz, die nur einen Shard benötigen.
1. Wenn der Clustermodus aktiviert ist, wird Multi-AZ automatisch aktiviert.
  
  Multi-AZ minimiert Ausfallzeiten, indem bei geplanten oder ungeplanten Wartungsarbeiten automatische Failovers vom Primärknoten zu den Replikaten durchgeführt und AZ-Ausfälle minimiert werden.
2. Bei Shard-Workloads sorgen mindestens drei Shards für eine schnellere Wiederherstellung bei Failover-Ereignissen, da das Valkey- oder Redis OSS-Cluster-Protokoll erfordert, dass die Mehrheit der Primärknoten verfügbar ist, um das Quorum zu erreichen.
3. Richten Sie zwei oder mehr Replikate für die Verfügbarkeit ein.
  
  Zwei Replikate bieten eine verbesserte Leseskalierbarkeit sowie Leseverfügbarkeit in Szenarien, in denen ein Replikat gewartet wird.
4. Verwenden Sie Graviton2-based Knotentypen (Standardknoten in den meisten Regionen).
  
  ElastiCache hat die Leistung auf diesen Knoten optimiert. Dadurch erhalten Sie eine bessere Replikations- und Synchronisierungsleistung, was zu einer insgesamt verbesserten Verfügbarkeit führt.
5. Überwachen Sie und passen Sie die Größe an, um zu erwartende Verkehrsspitzen zu bewältigen: Bei hoher Auslastung reagiert die Engine möglicherweise nicht mehr, was sich auf die Verfügbarkeit auswirkt. BytesUsedForCacheund DatabaseMemoryUsagePercentage sind gute Indikatoren für Ihre Speicherauslastung, wohingegen ReplicationLag sie anhand Ihrer Schreibrate ein Indikator für den Zustand Ihrer Replikation sind. Sie können diese Metriken verwenden, um die Clusterskalierung auszulösen.
6. Stellen Sie die clientseitige Resilienz sicher, indem Sie vor einem Produktions-Failover-Ereignis Tests mit der Failover-API durchführen.
[Ressourcen]:
- Konfigurieren Sie ElastiCache für Redis OSS für eine höhere Verfügbarkeit
- Hohe Verfügbarkeit mit Replikationsgruppen

REL 2: Wie erreichen Sie Ihre Recovery Point Objectives (RPOs)? ElastiCache

Question-level Einführung: Machen Sie sich mit Workload-RPO vertraut, um fundierte Entscheidungen über ElastiCache Sicherungs- und Wiederherstellungsstrategien treffen zu können.

Question-level Vorteil: Eine integrierte RPO-Strategie kann die Geschäftskontinuität im Fall von Notfallwiederherstellungsszenarien verbessern. Durch die Gestaltung Ihrer Sicherungs- und Wiederherstellungsrichtlinien können Sie Ihre Recovery Point Objectives (RPO) für Ihre Daten erreichen. ElastiCache ElastiCache bietet Snapshot-Funktionen, die in Amazon S3 gespeichert werden, zusammen mit einer konfigurierbaren Aufbewahrungsrichtlinie. Diese Snapshots werden während eines definierten Backup-Fensters aufgenommen und vom Service automatisch verarbeitet. Wenn Ihr Workload zusätzliche Backup-Granularität erfordert, haben Sie die Möglichkeit, bis zu 20 manuelle Backups pro Tag zu erstellen. Manuell erstellte Backups unterliegen keiner Serviceaufbewahrungsrichtlinie und können auf unbestimmte Zeit aufbewahrt werden.

[Erforderlich] Machen Sie sich mit dem RPO Ihrer ElastiCache Bereitstellungen vertraut und dokumentieren Sie es.
- Beachten Sie, dass Memcached keine Backup-Prozesse anbietet.
- Informieren Sie sich über die Funktionen der ElastiCache Backup- und Wiederherstellungsfunktionen.
[Am besten] Etablieren Sie einen gut kommunizierten Prozess für die Sicherung Ihres Clusters.
- Initiieren Sie bei Bedarf manuelle Backups.
- Überprüfen Sie die Aufbewahrungsrichtlinien für automatische Backups.
- Beachten Sie, dass manuelle Backups auf unbestimmte Zeit aufbewahrt werden.
- Planen Sie Ihre automatischen Backups in Zeiten geringer Auslastung.
- Führen Sie Backup-Operationen anhand von Lesereplikaten durch, um sicherzustellen, dass die Auswirkungen auf die Cluster-Leistung so gering wie möglich gehalten werden.
[Gut] Nutzen Sie die Funktion für geplante Backups von ElastiCache , um Ihre Daten regelmäßig innerhalb eines bestimmten Zeitfensters zu sichern.
- Testen Sie regelmäßig Wiederherstellungen aus Ihren Backups.
[Ressourcen]:

REL 3: Wie unterstützen Sie die Anforderungen an Disaster Recovery (DR, Notfallwiederherstellung)?

Question-level Einführung: Die Notfallwiederherstellung ist ein wichtiger Aspekt jeder Workload-Planung. ElastiCache bietet mehrere Optionen für die Implementierung von Disaster Recovery auf der Grundlage der Anforderungen an die Belastbarkeit von Workloads. Mit Amazon ElastiCache Global Datastore können Sie in Ihren Cluster in einer Region schreiben und die Daten zum Lesen aus zwei anderen regionsübergreifenden Replikatclustern zur Verfügung stellen, wodurch Lesevorgänge mit niedriger Latenz und regionsübergreifende Notfallwiederherstellung ermöglicht werden.

Question-level Vorteil: Das Verständnis und die Planung einer Vielzahl von Katastrophenszenarien können die Geschäftskontinuität sicherstellen. DR-Strategien müssen gegenüber Kosten, Leistungseinbußen und Datenverlustpotenzial abgewogen werden.

[Erforderlich] Entwickeln und dokumentieren Sie DR-Strategien für all Ihre ElastiCache Komponenten auf der Grundlage der Workload-Anforderungen. ElastiCache ist insofern einzigartig, als einige Anwendungsfälle völlig kurzlebig sind und keine DR-Strategie erfordern, während andere am anderen Ende des Spektrums liegen und eine extrem robuste DR-Strategie erfordern. Alle Optionen müssen gegenüber Kostenoptimierung abgewogen werden – eine größere Resilienz erfordert eine umfassendere Infrastruktur.

Machen Sie sich mit den DR-Optionen vertraut, die auf regionaler und multiregionaler Ebene verfügbar sind.
- Multi-AZ Bereitstellungen werden empfohlen, um AZ-Ausfälle zu verhindern. Stellen Sie sicher, dass Sie die Implementierung mit Cluster-Mode aktivierten Multi-AZ In-Architekturen durchführen und dass mindestens 3 AZs verfügbar sind.
- Global Datastore wird als Schutz vor regionalen Ausfällen empfohlen.
[Am besten] Aktivieren Sie Global Datastore für Workloads, die Resilienz auf regionaler Ebene erfordern.
- Planen Sie ein Failover auf die sekundäre Region für den Fall einer Verschlechterung der primären Region ein.
- Testen Sie den Failover-Prozess für mehrere Regionen, bevor Sie ein Failover in der Produktion durchführen.
- Überwachen Sie die ReplicationLag-Metrik, um die möglichen Auswirkungen von Datenverlusten bei Failover-Ereignissen zu verstehen.
[Ressourcen]:

REL 4: Wie planen Sie Failovers effektiv?

Question-level Einführung: Die Aktivierung von Multi-AZ mit automatischen Failovers ist eine bewährte Methode. ElastiCache In bestimmten Fällen ersetzt OSS ElastiCache bei Valkey und Redis die Primärknoten im Rahmen des Servicebetriebs. Beispiele hierfür sind geplante Wartungsereignisse und der unwahrscheinliche Falle eines Ausfalls des Knotens oder eines Problems mit der Availability Zone. Erfolgreiche Failover hängen sowohl von Ihrer Konfiguration als auch von Ihrer ElastiCache Client-Bibliothekskonfiguration ab.

Question-level Vorteil: Wenn Sie die Best Practices für ElastiCache Failover in Verbindung mit Ihrer spezifischen ElastiCache Client-Bibliothek befolgen, können Sie potenzielle Ausfallzeiten bei Failover-Ereignissen minimieren.

[Erforderlich] Verwenden Sie bei deaktiviertem Clustermodus Timeouts, damit Ihre Clients anhand der aktualisierten IP-Adresse des primären Endpunkts erkennen, ob die Verbindung zum alten Primärknoten getrennt und erneut eine Verbindung zum neuen Primärknoten hergestellt werden muss. Im aktivierten Clustermodus ist die Clientbibliothek dafür zuständig, Änderungen in der zugrundeliegenden Cluster-Topologie zu erkennen. Dies wird meistens durch Konfigurationseinstellungen in der ElastiCache Client-Bibliothek erreicht, mit denen Sie auch die Häufigkeit und die Methode der Aktualisierung konfigurieren können. Jede Clientbibliothek bietet eigene Einstellungen. Weitere Informationen finden Sie in der entsprechenden Dokumentation.

[Ressourcen]:
- Minimierung der Ausfallzeiten ElastiCache bei Valkey und Redis OSS mit Multi-AZ
- Informieren Sie sich über die Best Practices Ihrer ElastiCache Client-Bibliothek.
[Erforderlich] Erfolgreiche Failover hängen von einer fehlerfreien Replikationsumgebung zwischen dem Primärknoten und den Replikatknoten ab. Informieren Sie sich über die asynchrone Natur der Valkey- und Redis-OSS-Replikation sowie über die verfügbaren CloudWatch Kennzahlen zur Berichterstattung über die Replikationsverzögerung zwischen Primär- und Replikatknoten. In Anwendungsfällen, die eine höhere Datensicherheit erfordern, können Sie den Befehl WAIT nutzen, um Replikate zu zwingen, Schreibvorgänge zu bestätigen, bevor sie auf verbundene Clients antworten.

[Ressourcen]:
- Metriken für Valkey oder Redis OSS
- Überwachung von Best Practices ElastiCache mithilfe von Amazon CloudWatch
[Am besten] Überprüfen Sie regelmäßig die Reaktionsfähigkeit Ihrer Anwendung während eines Failovers mithilfe der ElastiCache Test Failover API.

[Ressourcen]:
- Testen des automatischen Failovers auf eine Read Replica am ElastiCache
- Testen des automatischen Failovers

REL 5: Sind Ihre ElastiCache Komponenten so konzipiert, dass sie skalierbar sind?

Question-level Einführung: Wenn Sie die Skalierungsmöglichkeiten und die verfügbaren Bereitstellungstopologien kennen, können sich Ihre ElastiCache Komponenten im Laufe der Zeit an sich ändernde Workload-Anforderungen anpassen. ElastiCachebietet 4-Wege-Skalierung: in/out (horizontal) und up/down (vertikal).

Question-level Vorteil: Die Einhaltung von Best Practices für ElastiCache Bereitstellungen bietet ein Höchstmaß an Flexibilität bei der Skalierung und erfüllt gleichzeitig das Well-Architected-Prinzip der horizontalen Skalierung, um die Auswirkungen von Ausfällen zu minimieren.

[Erforderlich] Machen Sie sich mit dem Unterschied zwischen Cluster-mode aktivierten und Cluster-mode deaktivierten Topologien vertraut. In fast allen Fällen wird empfohlen, die Bereitstellung mit Cluster-mode aktivierter Option durchzuführen, da dies im Laufe der Zeit eine größere Skalierbarkeit ermöglicht. Cluster-mode deaktivierte Komponenten können nur eingeschränkt horizontal skaliert werden, indem Read Replicas hinzugefügt werden.
[Erforderlich] Machen Sie sich damit vertraut, wann und wie Sie skalieren müssen.
- Für mehr READIOPS: Replikate hinzufügen
- Für mehr WRITEOPS: Shards hinzufügen (aufskalieren)
- Für mehr Netzwerk-I/O – netzwerkoptimierte Instances verwenden, hochskalieren
[Am besten] Stellen Sie Ihre ElastiCache Komponenten mit Cluster-mode aktivierter Option bereit, wobei der Schwerpunkt eher auf mehr, kleinere Knoten als auf weniger, größere Knoten gerichtet ist. Dadurch wird der Explosionsradius eines Knotenausfalls effektiv begrenzt.
[Am besten] Nehmen Sie Replikate in Ihre Cluster auf, um die Reaktionsfähigkeit bei Skalierungsereignissen zu verbessern
[Gut] Verwenden Sie bei deaktiviertem Cluster-Modus Read Replicas, um die Gesamtlesekapazität zu erhöhen. ElastiCache unterstützt bis zu 5 Read Replicas im deaktivierten Cluster-Modus sowie vertikale Skalierung.
[Ressourcen]:
- Skalierung von Clustern ElastiCache
- Online-Hochskalieren

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Säule der Sicherheit

Säule der Leistungseffizienz