Säule der Zuverlässigkeit von Amazon ElastiCache Well-Architected Lens - Amazon ElastiCache

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Säule der Zuverlässigkeit von Amazon ElastiCache Well-Architected Lens

Der Schwerpunkt der Zuverlässigkeit liegt auf Workloads, die ihre vorgesehenen Funktionen erfüllen, und darauf, wie sie bei einem Ausfall schnell wiederhergestellt werden können, um die Anforderungen zu erfüllen. Zu den wichtigsten Themen gehören der Entwurf verteilter Systeme, die Wiederherstellungsplanung und die Anpassung an sich ändernde Anforderungen.

REL1: Wie unterstützen Sie Implementierungen von Hochverfügbarkeitsarchitekturen (HA)?

Einführung auf Fragenebene: Wenn Sie die Hochverfügbarkeitsarchitektur von Amazon verstehen, können ElastiCache Sie bei Verfügbarkeitsereignissen in einem stabilen Zustand arbeiten.

Vorteil auf Fragenebene: Wenn Sie Ihre ElastiCache Cluster so gestalten, dass sie ausfallsicher sind, wird eine höhere Verfügbarkeit Ihrer Bereitstellungen gewährleistet. ElastiCache

  • [Erforderlich] Ermitteln Sie das Maß an Zuverlässigkeit, das Sie für Ihren Cluster benötigen. ElastiCache Verschiedene Workloads haben unterschiedliche Resilienzstandards, von rein kurzlebigen bis hin zu geschäftskritischen Workloads. Definieren Sie die Anforderungen für jede Art von Umgebung, die Sie betreiben, z. B. Entwicklung, Test und Produktion.

    Caching-Engine: ElastiCache (Memcached) gegen ElastiCache (Redis) OSS

    1. ElastiCache (Memcached) bietet keinen Replikationsmechanismus und wird hauptsächlich für kurzlebige Workloads verwendet.

    2. ElastiCache (RedisOSS) bietet HA-Funktionen, die im Folgenden beschrieben werden

  • [Am besten] Verwenden Sie ElastiCache (RedisOSS) für Workloads, die HA erfordern, im Clustermodus mit mindestens zwei Replikaten pro Shard, auch für Workloads mit geringem Durchsatz, die nur einen Shard benötigen.

    1. Wenn der Clustermodus aktiviert ist, wird Multi-AZ automatisch aktiviert.

      Multi-AZ minimiert Ausfallzeiten, indem automatische Failovers vom Primärknoten bis zu den Replikaten im Falle einer geplanten oder ungeplanten Wartung durchgeführt und AZ-Ausfälle minimiert werden.

    2. Bei Shard-Workloads sorgen mindestens drei Shards für eine schnellere Wiederherstellung bei Failover-Ereignissen, da das Valkey- oder OSS Redis-Cluster-Protokoll erfordert, dass die Mehrheit der Primärknoten verfügbar ist, um ein Quorum zu erreichen.

    3. Richten Sie zwei oder mehr Replikate für die Verfügbarkeit ein.

      Zwei Replikate bieten eine verbesserte Leseskalierbarkeit sowie Leseverfügbarkeit in Szenarien, in denen ein Replikat gewartet wird.

    4. Verwenden Sie Graviton2-basierte Knotentypen (Standardknoten in den meisten Regionen).

      ElastiCache (RedisOSS) hat die Leistung auf diesen Knoten optimiert. Dadurch erhalten Sie eine bessere Replikations- und Synchronisierungsleistung, was zu einer insgesamt verbesserten Verfügbarkeit führt.

    5. Überwachen Sie und passen Sie die Größe an, um auf erwartete Verkehrsspitzen zu reagieren: Bei hoher Auslastung reagiert die ElastiCache (Redis-OSS) Engine möglicherweise nicht mehr, was sich auf die Verfügbarkeit auswirkt. BytesUsedForCacheund DatabaseMemoryUsagePercentage sind gute Indikatoren für Ihre Speichernutzung, wohingegen ReplicationLag sie anhand Ihrer Schreibrate ein Indikator für den Zustand Ihrer Replikation sind. Sie können diese Metriken verwenden, um die Clusterskalierung auszulösen.

    6. Stellen Sie die Stabilität auf der Clientseite sicher, indem Sie APIvor einem Produktions-Failover-Ereignis Tests mit dem Failover durchführen.

    [Ressourcen]:

REL2: Wie erreichen Sie Ihre Recovery Point Objectives (RPOs)? ElastiCache

Einführung auf Fragenebene: Machen Sie sich mit der Arbeitslast vertrautRPO, um fundierte Entscheidungen über ElastiCache Sicherungs- und Wiederherstellungsstrategien treffen zu können.

Vorteil auf Fragenebene: Mit einer RPO Strategie vor Ort kann die Geschäftskontinuität im Fall von Notfallwiederherstellungsszenarien verbessert werden. Die Gestaltung Ihrer Sicherungs- und Wiederherstellungsrichtlinien kann Ihnen helfen, Ihre Recovery Point Objectives (RPO) für Ihre Daten zu erreichen. ElastiCache ElastiCache (RedisOSS) bietet Snapshot-Funktionen, die in Amazon S3 gespeichert werden, zusammen mit einer konfigurierbaren Aufbewahrungsrichtlinie. Diese Snapshots werden während eines definierten Backup-Fensters aufgenommen und vom Service automatisch verarbeitet. Wenn Ihr Workload zusätzliche Backup-Granularität erfordert, haben Sie die Möglichkeit, bis zu 20 manuelle Backups pro Tag zu erstellen. Manuell erstellte Backups unterliegen keiner Serviceaufbewahrungsrichtlinie und können auf unbestimmte Zeit aufbewahrt werden.

  • [Erforderlich] Machen Sie sich mit Ihren ElastiCache Bereitstellungen vertraut und dokumentieren Sie sie. RPO

    • Beachten Sie, dass Memcached keine Backup-Prozesse anbietet.

    • Informieren Sie sich über die Funktionen der ElastiCache Backup- und Wiederherstellungsfunktionen.

  • [Am besten] Etablieren Sie einen gut kommunizierten Prozess für die Sicherung Ihres Clusters.

    • Initiieren Sie bei Bedarf manuelle Backups.

    • Überprüfen Sie die Aufbewahrungsrichtlinien für automatische Backups.

    • Beachten Sie, dass manuelle Backups auf unbestimmte Zeit aufbewahrt werden.

    • Planen Sie Ihre automatischen Backups in Zeiten geringer Auslastung.

    • Führen Sie Backup-Operationen anhand von Lesereplikaten durch, um sicherzustellen, dass die Auswirkungen auf die Cluster-Leistung so gering wie möglich gehalten werden.

  • [Gut] Nutzen Sie die Funktion für geplante Backups von ElastiCache , um Ihre Daten regelmäßig innerhalb eines bestimmten Zeitfensters zu sichern.

    • Testen Sie regelmäßig Wiederherstellungen aus Ihren Backups.

  • [Ressourcen]:

REL3: Wie unterstützen Sie die Anforderungen für die Notfallwiederherstellung (DR)?

Einführung auf Fragenebene: Die Notfallwiederherstellung ist ein wichtiger Aspekt jeder Workload-Planung. ElastiCache (RedisOSS) bietet mehrere Optionen zur Implementierung von Disaster Recovery auf der Grundlage von Anforderungen an die Belastbarkeit von Workloads. Mit Amazon ElastiCache Global Datastore können Sie in Ihren ElastiCache (Redis-OSS) Cluster in einer Region schreiben und die Daten zum Lesen aus zwei anderen regionsübergreifenden Replikatclustern zur Verfügung stellen, wodurch Lesevorgänge mit niedriger Latenz und regionsübergreifende Disaster Recovery ermöglicht werden.

Vorteil auf Fragenebene: Durch das Nachvollziehen und die Planung verschiedener Notfallszenarien kann die Geschäftskontinuität gewährleistet werden. DR-Strategien müssen gegenüber Kosten, Leistungseinbußen und Datenverlustpotenzial abgewogen werden.

  • [Erforderlich] Entwickeln und dokumentieren Sie DR-Strategien für all Ihre ElastiCache Komponenten auf der Grundlage der Workload-Anforderungen. ElastiCache ist insofern einzigartig, als einige Anwendungsfälle völlig kurzlebig sind und keine DR-Strategie erfordern, während andere am anderen Ende des Spektrums liegen und eine extrem robuste DR-Strategie erfordern. Alle Optionen müssen gegenüber Kostenoptimierung abgewogen werden – eine größere Resilienz erfordert eine umfassendere Infrastruktur.

    Machen Sie sich mit den DR-Optionen vertraut, die auf regionaler und multiregionaler Ebene verfügbar sind.

    • Multi-AZ-Bereitstellungen werden empfohlen, um sich vor AZ-Ausfällen zu schützen. Stellen Sie sicher, dass bei der Bereitstellung der Cluster-Modus in Multi-AZ-Architekturen aktiviert ist und mindestens 3 verfügbar sind. AZs

    • Global Datastore wird als Schutz vor regionalen Ausfällen empfohlen.

  • [Am besten] Aktivieren Sie Global Datastore für Workloads, die Resilienz auf regionaler Ebene erfordern.

    • Planen Sie ein Failover auf die sekundäre Region für den Fall einer Verschlechterung der primären Region ein.

    • Testen Sie den Failover-Prozess für mehrere Regionen, bevor Sie ein Failover in der Produktion durchführen.

    • Überwachen Sie die ReplicationLag-Metrik, um die möglichen Auswirkungen von Datenverlusten bei Failover-Ereignissen zu verstehen.

  • [Ressourcen]:

REL4: Wie können Sie Failovers effektiv planen?

Einführung auf Fragenebene: Die Aktivierung von Multi-AZ mit automatischen Failovers ist eine bewährte Methode. ElastiCache In bestimmten Fällen ersetzt ElastiCache (RedisOSS) die Primärknoten im Rahmen von Servicebetrieben. Beispiele hierfür sind geplante Wartungsereignisse und der unwahrscheinliche Falle eines Ausfalls des Knotens oder eines Problems mit der Availability Zone. Erfolgreiche Failover hängen sowohl ElastiCache von beiden als auch von Ihrer Client-Bibliothekskonfiguration ab.

Vorteil auf Fragenebene: Wenn Sie die Best Practices für ElastiCache Failover in Verbindung mit Ihrer spezifischen ElastiCache (Redis-OSS) Clientbibliothek befolgen, können Sie potenzielle Ausfallzeiten bei Failover-Ereignissen minimieren.

  • [Erforderlich] Verwenden Sie bei deaktiviertem Clustermodus Timeouts, damit Ihre Clients anhand der aktualisierten IP-Adresse des primären Endpunkts erkennen, ob die Verbindung zum alten Primärknoten getrennt und erneut eine Verbindung zum neuen Primärknoten hergestellt werden muss. Im aktivierten Clustermodus ist die Clientbibliothek dafür zuständig, Änderungen in der zugrundeliegenden Cluster-Topologie zu erkennen. Dies wird meistens durch Konfigurationseinstellungen in der ElastiCache (Redis-OSS) Clientbibliothek erreicht, mit denen Sie auch die Häufigkeit und die Methode der Aktualisierung konfigurieren können. Jede Clientbibliothek bietet eigene Einstellungen. Weitere Informationen finden Sie in der entsprechenden Dokumentation.

    [Ressourcen]:

  • [Erforderlich] Erfolgreiche Failover hängen von einer fehlerfreien Replikationsumgebung zwischen dem Primärknoten und den Replikatknoten ab. Informieren Sie sich über die asynchrone Natur der Valkey- und OSS Redis-Replikation sowie über die verfügbaren CloudWatch Metriken zur Berichterstattung über die Replikationsverzögerung zwischen Primär- und Replikatknoten. In Anwendungsfällen, die eine höhere Datensicherheit erfordern, können Sie den WAIT Befehl nutzen, um Replikate dazu zu zwingen, Schreibvorgänge zu bestätigen, bevor sie auf verbundene Clients antworten.

    [Ressourcen]:

  • [Am besten] Überprüfen Sie regelmäßig die Reaktionsfähigkeit Ihrer Anwendung während eines Failovers mithilfe des ElastiCache Test-Failovers. API

    [Ressourcen]:

REL5: Sind Ihre ElastiCache Komponenten so konzipiert, dass sie skalierbar sind?

Einführung auf Fragenebene: Wenn Sie die Skalierungsmöglichkeiten und die verfügbaren Bereitstellungstopologien verstehen, können sich Ihre ElastiCache Komponenten im Laufe der Zeit an sich ändernde Workload-Anforderungen anpassen. ElastiCachebietet 4-Wege-Skalierung: ein-/auswärts (horizontal) sowie hoch/runter (vertikal).

Vorteil auf Frageebene: Die Einhaltung von Best Practices für ElastiCache Bereitstellungen bietet ein Höchstmaß an Flexibilität bei der Skalierung und erfüllt gleichzeitig das Well-Architected-Prinzip der horizontalen Skalierung, um die Auswirkungen von Ausfällen zu minimieren.

  • [Erforderlich] Machen Sie sich mit dem Unterschied zwischen Topologien im aktivierten und im deaktivierten Clustermodus vertraut. In fast allen Fällen wird empfohlen, die Bereitstellung mit aktiviertem Clustermodus vorzunehmen, da dies im Zeitverlauf eine größere Skalierbarkeit ermöglicht. Komponenten im deaktiviertem Clustermodus können nur begrenzt horizontal skaliert werden, indem Lesereplikate hinzugefügt werden.

  • [Erforderlich] Machen Sie sich damit vertraut, wann und wie Sie skalieren müssen.

    • Weitere Informationen: Fügen Sie Replikate hinzu READIOPS

    • Weitere InformationenWRITEOPS: Fügen Sie Shards hinzu (horizontal skalieren)

    • Für mehr Netzwerk-I/O – netzwerkoptimierte Instances verwenden, hochskalieren

  • [Am besten] Stellen Sie Ihre ElastiCache Komponenten mit aktiviertem Cluster-Modus bereit, wobei der Schwerpunkt eher auf mehr, kleinere Knoten als auf weniger, größere Knoten liegt. Dadurch wird der Explosionsradius eines Knotenausfalls effektiv begrenzt.

  • [Am besten] Nehmen Sie Replikate in Ihre Cluster auf, um die Reaktionsfähigkeit bei Skalierungsereignissen zu verbessern

  • [Gut] Verwenden Sie bei deaktiviertem Cluster-Modus Read Replicas, um die gesamte Lesekapazität zu erhöhen. ElastiCache unterstützt bis zu 5 Read Replicas im deaktivierten Cluster-Modus sowie vertikale Skalierung.

  • [Ressourcen]: