OE 1: Wie verstehen Sie Warnmeldungen und Ereignisse, die von Ihrem ElastiCache Cluster ausgelöst werden, und wie reagieren Sie darauf?OE 2: Wann und wie skalieren Sie Ihre vorhandenen Cluster? ElastiCache OE 3: Wie verwalten Sie Ihre ElastiCache Cluster-Ressourcen und halten Ihren Cluster auf dem neuesten Stand?OE 4: Wie verwalten Sie die Verbindungen der Kunden zu Ihren ElastiCache Clustern?OE 5: Wie stellt man ElastiCache Komponenten für einen Workload bereit?OE 6: Wie planen und minimieren Sie Ausfälle?OE 7: Wie behebt man Valkey- oder Redis OSS-Engine-Ereignisse?

Die Säule Operational Excellence von Amazon ElastiCache Well-Architected Lens

Die Säule „Operational Excellence“ konzentriert sich auf den Betrieb und die Überwachung von Systemen, um einen Mehrwert für das Unternehmen zu schaffen, sowie auf die kontinuierliche Verbesserung von Prozessen und Verfahren. Zu den wichtigsten Themen gehören die Automatisierung von Änderungen, die Reaktion auf Ereignisse und die Definition von Standards für die Verwaltung des täglichen Betriebs.

Themen

OE 1: Wie verstehen Sie Warnmeldungen und Ereignisse, die von Ihrem ElastiCache Cluster ausgelöst werden, und wie reagieren Sie darauf?
OE 2: Wann und wie skalieren Sie Ihre vorhandenen Cluster? ElastiCache
OE 3: Wie verwalten Sie Ihre ElastiCache Cluster-Ressourcen und halten Ihren Cluster auf dem neuesten Stand?
OE 4: Wie verwalten Sie die Verbindungen der Kunden zu Ihren ElastiCache Clustern?
OE 5: Wie stellt man ElastiCache Komponenten für einen Workload bereit?
OE 6: Wie planen und minimieren Sie Ausfälle?
OE 7: Wie behebt man Valkey- oder Redis OSS-Engine-Ereignisse?

OE 1: Wie verstehen Sie Warnmeldungen und Ereignisse, die von Ihrem ElastiCache Cluster ausgelöst werden, und wie reagieren Sie darauf?

Question-level Einführung: Wenn Sie ElastiCache Cluster betreiben, können Sie optional Benachrichtigungen und Warnmeldungen erhalten, wenn bestimmte Ereignisse eintreten. ElastiCacheprotokolliert standardmäßig Ereignisse, die sich auf Ihre Ressourcen beziehen, z. B. Failover, Knotenaustausch, Skalierungsvorgänge, geplante Wartungsarbeiten und mehr. Jedes Ereignis enthält das Datum und die Uhrzeit, den Quellnamen und den Quelltyp sowie eine Beschreibung.

Question-level Vorteil: Wenn Sie in der Lage sind, die zugrunde liegenden Gründe für die Ereignisse, die von Ihrem Cluster generierte Warnmeldungen auslösen, zu verstehen und zu verwalten, können Sie effektiver arbeiten und angemessen auf Ereignisse reagieren.

[Erforderlich] Überprüfen Sie die Ereignisse, die ElastiCache auf der ElastiCache Konsole (nachdem Sie Ihre Region ausgewählt haben) oder mithilfe des Befehls describe-events (CLI) von Amazon Command Line Interface (AWS CLI) und der ElastiCache API generiert wurden. Konfigurieren Sie ElastiCache das Senden von Benachrichtigungen für wichtige Cluster-Ereignisse mithilfe von Amazon Simple Notification Service (Amazon SNS). Wenn Sie Amazon SNS mit Ihren Clustern verwenden, können Sie bei Ereignissen programmgesteuert Maßnahmen ergreifen. ElastiCache
- Es gibt zwei große Ereigniskategorien: aktuelle und geplante Ereignisse. Die Liste der aktuellen Ereignisse umfasst: Erstellung und Löschung von Ressourcen, Skalierungsvorgänge, Failover, Neustart des Knotens, Erstellung eines Snapshots, Änderung der Cluster-Parameter, Verlängerung des CA-Zertifikats, Fehlerereignisse (Fehler bei der Cluster-Bereitstellung – VPC oder ENI, Skalierungsfehler – ENI- und Snapshot-Fehler). Die Liste der geplanten Ereignisse umfasst: Knoten, dessen Austausch während des Wartungsfensters geplant ist, und Knotenaustausch, der verschoben wurde.
- Auch wenn Sie auf einige dieser Ereignisse möglicherweise nicht sofort reagieren müssen, ist es wichtig, sich zunächst alle Fehlerereignisse anzusehen:
  - ElastiCache:AddCacheNodeFailed
  - ElastiCache:CacheClusterProvisioningFailed
  - ElastiCache:CacheClusterScalingFailed
  - ElastiCache:CacheNodesRebooted
  - ElastiCache:SnapshotFailed (Nur Valkey oder Redis OSS)
- [Ressourcen]:
  - Verwaltung von ElastiCache Amazon SNS SNS-Benachrichtigungen
  - Ereignisbenachrichtigungen und Amazon SNS
[Am besten] Nutzen Sie AWS Produkt- und Servicefunktionen wie SNS und Lambda Functions, um Reaktionen auf Ereignisse zu automatisieren. Halten Sie sich an bewährte Methoden, indem Sie kleine, häufige, umkehrbare Änderungen als Code vornehmen, um Ihre Operationen im Laufe der Zeit weiterzuentwickeln. Sie sollten CloudWatch Amazon-Metriken verwenden, um Ihre Cluster zu überwachen.

[Ressourcen]: Überwachen Sie ElastiCache (Cluster-Modus deaktiviert) Lesereplikat-Endpunkte mit AWS Lambda, Amazon Route 53 und Amazon SNS für einen Anwendungsfall, der Lambda und SNS verwendet.

OE 2: Wann und wie skalieren Sie Ihre vorhandenen Cluster? ElastiCache

Question-level Einführung: Right-sizing Ihr ElastiCache Cluster ist ein Balanceakt, der jedes Mal bewertet werden muss, wenn sich die zugrunde liegenden Workload-Typen ändern. Ihr Ziel ist es, mit der richtigen Größe für Ihren Workload zu arbeiten.

Question-level Vorteil: Over-utilization Ihre Ressourcen können zu erhöhter Latenz und insgesamt verringerter Leistung führen. Under-utilizationkann andererseits dazu führen, dass zu viele Ressourcen bereitgestellt werden und die Kosten nicht optimal optimiert werden. Durch die richtige Dimensionierung Ihrer Umgebungen können Sie ein Gleichgewicht zwischen Leistungseffizienz und Kostenoptimierung erreichen. Um eine Über- oder Unterauslastung Ihrer Ressourcen zu beheben, ElastiCache können Sie in zwei Dimensionen skalieren. Sie können vertikal skalieren, indem Sie die Knotenkapazität erhöhen oder verringern. Sie können auch horizontal skalieren, indem Sie Knoten hinzufügen und entfernen.

[Erforderlich] Die Überauslastung der CPU und des Netzwerks auf den Primärknoten sollte dadurch behoben werden, dass die Lesevorgänge ausgelagert und an die Replikatknoten umgeleitet werden. Verwenden Sie Replikatknoten für Lesevorgänge, um die Auslastung des Primärknotens zu reduzieren. Dies kann in Ihrer Valkey- oder Redis OSS-Clientbibliothek konfiguriert werden, indem Sie eine Verbindung zum ElastiCache Reader-Endpunkt herstellen, wenn der Clustermodus deaktiviert ist, oder indem Sie den Befehl READONLY verwenden, wenn der Clustermodus aktiviert ist.

[Ressourcen]:
[Erforderlich] Überwachen Sie die Auslastung kritischer Clusterressourcen wie CPU, Arbeitsspeicher und Netzwerk. Die Auslastung dieser spezifischen Clusterressourcen muss nachverfolgt werden, um eine Entscheidung für eine Skalierung und die Art des Skalierungsvorgangs treffen zu können. Wenn der ElastiCache Clustermodus deaktiviert ist, können Primär- und Replikatknoten vertikal skaliert werden. Replikatknoten können auch horizontal von 0 auf 5 Knoten skaliert werden. Wenn der Clustermodus aktiviert ist, gilt dasselbe für jeden Shard Ihres Clusters. Darüber hinaus können Sie die Anzahl der Shards erhöhen oder reduzieren.

[Ressourcen]:
[Am besten] Wenn Sie Trends im Zeitverlauf überwachen, können Sie Workload-Änderungen erkennen, die bei punktueller Überwachung unbemerkt bleiben würden. Um längerfristige Trends zu erkennen, verwenden Sie CloudWatch Metriken, um nach längeren Zeiträumen zu suchen. Die Erkenntnisse aus der Beobachtung von CloudWatch Kennzahlen über längere Zeiträume sollten als Grundlage für Ihre Prognose zur Auslastung der Cluster-Ressourcen dienen. CloudWatch Datenpunkte und Metriken sind für bis zu 455 Tage verfügbar.

[Ressourcen]:
[Optimal] Wenn Ihre ElastiCache Ressourcen damit erstellt werden, empfiehlt CloudFormation es sich, Änderungen mithilfe von CloudFormation Vorlagen vorzunehmen, um die betriebliche Konsistenz zu wahren und unverwaltete Konfigurationsänderungen und Stack-Drifts zu vermeiden.

[Ressourcen]:
- ElastiCache Referenz zum Ressourcentyp für CloudFormation
[Am besten] Automatisieren Sie Ihre Skalierungsvorgänge mithilfe von Cluster-Betriebsdaten und definieren Sie Schwellenwerte für CloudWatch die Einrichtung von Alarmen. Verwenden Sie CloudWatch Events und Simple Notification Service (SNS), um Lambda-Funktionen auszulösen, und führen Sie eine ElastiCache API aus, um Ihre Cluster automatisch zu skalieren. Ein Beispiel wäre, Ihrem Cluster einen Shard hinzuzufügen, wenn die Metrik EngineCPUUtilization über einen längeren Zeitraum 80 % erreicht. Eine weitere Option wäre die Verwendung von DatabaseMemoryUsedPercentages für einen speicherbasierten Schwellenwert.

[Ressourcen]:

OE 3: Wie verwalten Sie Ihre ElastiCache Cluster-Ressourcen und halten Ihren Cluster auf dem neuesten Stand?

Question-level Einführung: Wenn Sie in großem Maßstab arbeiten, ist es wichtig, dass Sie in der Lage sind, all Ihre ElastiCache Ressourcen zu lokalisieren und zu identifizieren. Bei der Einführung neuer Anwendungsfunktionen müssen Sie für eine Symmetrie der Cluster-Versionen in all Ihren ElastiCache Umgebungstypen sorgen: Entwicklung, Test und Produktion. Mithilfe von Ressourcenattributen können Sie Umgebungen für unterschiedliche betriebliche Ziele trennen, z. B. bei der Einführung neuer Funktionen und der Aktivierung neuer Sicherheitsmechanismen.

Question-level Vorteil: Die Trennung Ihrer Entwicklungs-, Test- und Produktionsumgebungen ist eine bewährte Betriebspraxis. Es ist auch eine bewährte Methode, dass auf Ihren Clustern und Knoten in allen Umgebungen die neuesten Softwarepatches installiert werden, wobei wohlverstandene und dokumentierte Prozesse verwendet werden. Durch die Nutzung systemeigener ElastiCache Funktionen kann sich Ihr Entwicklungsteam auf die Erreichung der Geschäftsziele konzentrieren und nicht auf die ElastiCache Wartung.

[Am besten] Verwenden Sie die neueste verfügbare Engine-Version und installieren Sie die Self-Service Updates, sobald sie verfügbar sind. ElastiCache aktualisiert die zugrunde liegende Infrastruktur automatisch während des von Ihnen angegebenen Wartungsfensters des Clusters. Die Knoten, die in Ihren Clustern ausgeführt werden, werden jedoch über Self-Service Updates aktualisiert. Es gibt zwei Arten von Updates: Sicherheitspatches oder kleinere Software-Updates. Stellen Sie sicher, dass Sie den Unterschied zwischen den Patch-Typen verstehen und wissen, wann diese angewendet werden.

[Ressourcen]:
- Self-Service Updates bei Amazon ElastiCache
- Hilfeseite für Amazon ElastiCache Managed Maintenance and Service Updates
[Am besten] Organisieren Sie Ihre ElastiCache Ressourcen mithilfe von Tags. Verwenden Sie Tags für Replikationsgruppen und nicht für einzelne Knoten. Sie können Tags so konfigurieren, dass sie angezeigt werden, wenn Sie Ressourcen abfragen, und Sie können Tags verwenden, um Suchen durchzuführen und Filter anzuwenden. Sie sollten Ressourcengruppen verwenden, um auf einfache Weise Sammlungen von Ressourcen zu erstellen und zu verwalten, die gemeinsame Tag-Sätze verwenden.

[Ressourcen]:

OE 4: Wie verwalten Sie die Verbindungen der Kunden zu Ihren ElastiCache Clustern?

Question-level Einführung: Wenn Sie in großem Maßstab arbeiten, müssen Sie verstehen, wie sich Ihre Kunden mit dem ElastiCache Cluster verbinden, um die betrieblichen Aspekte Ihrer Anwendung (z. B. Reaktionszeiten) verwalten zu können.

Question-level Vorteil: Durch die Auswahl des am besten geeigneten Verbindungsmechanismus wird sichergestellt, dass Ihre Anwendung nicht aufgrund von Verbindungsfehlern, wie z. B. Timeouts, unterbrochen wird.

[Erforderlich] Trennen Sie Lese- und Schreibvorgänge und stellen Sie eine Verbindung mit dem Replikatknoten her, um Lesevorgänge auszuführen. Beachten Sie jedoch, dass Sie, wenn Sie die Schreibvorgänge von den Lesevorgängen trennen, aufgrund der asynchronen Natur der Valkey- und Redis-OSS-Replikation die Fähigkeit verlieren, einen Schlüssel unmittelbar nach dem Schreiben zu lesen. Der WAIT-Befehl kann genutzt werden, um die Datensicherheit in der Praxis zu verbessern und Replikate dazu zu zwingen, Schreibvorgänge zu bestätigen, bevor sie auf Clients antworten, was die Gesamtleistung beeinträchtigt. Die Verwendung von Replikatknoten für Lesevorgänge kann in Ihrer ElastiCache Client-Bibliothek konfiguriert werden, indem der ElastiCache Reader-Endpunkt für den Clustermodus deaktiviert ist. Wenn der Clustermodus aktiviert ist, verwenden Sie den Befehl READONLY. Für viele der ElastiCache Clientbibliotheken ist READONLY standardmäßig oder über eine Konfigurationseinstellung implementiert.

[Ressourcen]:
- Verbindungsendpunkte finden in ElastiCache
- READONLY
[Erforderlich] Verwenden Sie Verbindungspooling. Der Aufbau einer TCP-Verbindung kostet sowohl auf Client- als auch auf Serverseite CPU-Zeit. Durch Pooling können Sie die TCP-Verbindung wiederverwenden.

Um den Verbindungsaufwand zu reduzieren, sollten Sie Verbindungspooling verwenden. Mit einem Pool von Verbindungen kann Ihre Anwendung Verbindungen „nach Belieben“ wiederverwenden und freigeben, ohne dass Kosten für den Verbindungsaufbau anfallen. Sie können das Verbindungspooling über Ihre ElastiCache Clientbibliothek (sofern unterstützt) implementieren, wobei ein Framework für Ihre Anwendungsumgebung verfügbar ist, oder es von Grund auf neu erstellen.
[Am besten] Stellen Sie sicher, dass das Socket-Timeout des Clients auf mindestens eine Sekunde eingestellt ist (im Vergleich zur typischen Standardeinstellung „Keine“ bei verschiedenen Clients).
- Wenn Sie den Timeout-Wert zu niedrig einstellen, kann dies zu möglichen Timeouts führen, wenn die Serverlast hoch ist. Eine zu hohe Einstellung kann dazu führen, dass Ihre Anwendung lange braucht, um Verbindungsprobleme zu erkennen.
- Kontrollieren Sie das Volumen neuer Verbindungen, indem Sie Verbindungspooling in Ihrer Client-Anwendung implementieren. Dadurch werden Latenz und CPU-Auslastung reduziert, die erforderlich sind, um Verbindungen zu öffnen und zu schließen, und es wird ein TLS-Handshake durchgeführt, wenn TLS im Cluster aktiviert ist.
[Ressourcen]: ElastiCache Für höhere Verfügbarkeit konfigurieren
[Gut] Der Einsatz von Pipelining (sofern Ihre Anwendungsfälle dies zulassen) kann die Leistung erheblich steigern.
- Mit Pipelining reduzieren Sie die Round-Trip Zeit (RTT) zwischen Ihren Anwendungsclients und dem Cluster. Neue Anfragen können verarbeitet werden, auch wenn der Client die vorherigen Antworten noch nicht gelesen hat.
- Mit Pipelining können Sie mehrere Befehle an den Server senden, ohne darauf warten zu müssen. replies/ack Der Nachteil von Pipelining ist, dass, wenn Sie irgendwann alle Antworten in Massen abrufen, möglicherweise ein Fehler aufgetreten ist, den Sie erst am Ende erkennen können.
- Implementieren Sie Methoden, um Anfragen erneut zu versuchen, wenn ein Fehler zurückgegeben wird, der die fehlerhafte Anfrage auslässt.
[Ressourcen]: Pipelining

OE 5: Wie stellt man ElastiCache Komponenten für einen Workload bereit?

Question-level Einführung: ElastiCache Umgebungen können manuell über die AWS Konsole oder programmgesteuert über APIs, CLI, Toolkits usw. bereitgestellt werden. Bewährte Methoden für Operational Excellence sehen vor, Bereitstellungen möglichst mithilfe von Code zu automatisieren. Darüber hinaus können ElastiCache Cluster entweder nach Arbeitslast isoliert oder zur Kostenoptimierung kombiniert werden.

Question-level Vorteil: Die Wahl des für Ihre ElastiCache Umgebungen am besten geeigneten Bereitstellungsmechanismus kann die Operationsexcellence im Laufe der Zeit verbessern. Es wird empfohlen, Operationen möglichst als Code auszuführen, um menschliche Fehler zu minimieren und die Wiederholbarkeit, Flexibilität und Reaktionszeit auf Ereignisse zu erhöhen.

Wenn Sie die Anforderungen an die Workload-Isolierung kennen, können Sie entscheiden, ob Sie pro Workload dedizierte ElastiCache Umgebungen einrichten oder mehrere Workloads zu einzelnen Clustern oder Kombinationen davon kombinieren möchten. Die Nachteile zu verstehen, kann dazu beitragen, ein Gleichgewicht zwischen Operational Excellende und Kostenoptimierung zu finden

[Erforderlich] Machen Sie sich mit den verfügbaren Bereitstellungsoptionen vertraut und automatisieren Sie diese Verfahren ElastiCache, wann immer dies möglich ist. Zu den möglichen Automatisierungsmöglichkeiten gehören CloudFormation, AWS CLI/SDK, und APIs.

[Ressourcen]:
[Erforderlich] Ermitteln Sie für alle Workloads den erforderlichen Grad der Clusterisolierung.
- [Am besten]: Hohe Isolierung – eine 1:1-Zuordnung zwischen Workload und Cluster. Ermöglicht die feinste Kontrolle über den Zugriff, die Größe, Skalierung und Verwaltung von ElastiCache Ressourcen auf Workload-Basis.
- [Besser]: Mittlere M:1 Isolierung — zweckgebunden, aber möglicherweise von mehreren Workloads gemeinsam genutzt (z. B. ein Cluster für das Zwischenspeichern von Workloads und ein weiterer für Messaging).
- [Gut]: Niedriger Isolationsgrad — vielseitig einsetzbar, M:1 vollständig gemeinsam genutzt. Empfohlen für Workloads, bei denen gemeinsamer Zugriff akzeptabel ist.

OE 6: Wie planen und minimieren Sie Ausfälle?

Question-level Einführung: Operational Excellence beinhaltet die Antizipation von Ausfällen durch regelmäßige „Pre-Mortem“ -Übungen zur Identifizierung potenzieller Fehlerquellen, sodass sie behoben oder eingedämmt werden können. ElastiCache bietet eine Failover-API, die zu Testzwecken simulierte Knotenausfälle ermöglicht.

Question-level Vorteil: Indem Sie Ausfallszenarien im Voraus testen, können Sie herausfinden, wie sie sich auf Ihre Arbeitslast auswirken. Dies ermöglicht ein sicheres Testen der Reaktionsverfahren und ihrer Wirksamkeit und macht Ihr Team mit deren Ausführung vertraut.

[Erforderlich] Führen Sie regelmäßig Failover-Tests dev/test für Konten durch. TestFailover

OE 7: Wie behebt man Valkey- oder Redis OSS-Engine-Ereignisse?

Question-level Einführung: Operational Excellence erfordert die Fähigkeit, sowohl Informationen auf Service- als auch auf Engine-Ebene zu untersuchen, um den Zustand und den Status Ihrer Cluster zu analysieren. ElastiCache kann Valkey- oder Redis-OSS-Engine-Protokolle sowohl an Amazon als auch an Amazon Kinesis CloudWatch Data Firehose senden.

Question-level Vorteil: Durch die Aktivierung von Valkey- oder Redis-OSS-Engine-Protokollen auf ElastiCache Clustern erhalten Sie Einblicke in Ereignisse, die sich auf den Zustand und die Leistung von Clustern auswirken. Die Logs der Valkey- oder Redis OSS-Engine liefern Daten direkt von der Engine, die über den Ereignismechanismus nicht verfügbar sind. ElastiCache Durch sorgfältige Beobachtung sowohl der ElastiCache Ereignisse (siehe oben OE-1) als auch der Engine-Logs ist es möglich, bei der Fehlerbehebung eine Reihenfolge der Ereignisse sowohl aus ElastiCache Service- als auch aus Engine-Perspektive zu bestimmen.

[Erforderlich] Stellen Sie sicher, dass die Protokollierungsfunktion der Redis OSS-Engine aktiviert ist. Diese Funktion ist ab ElastiCache Version 6.2 für Redis OSS und neuer verfügbar. Dieser Vorgang kann während der Clustererstellung oder durch Änderung des Clusters nach der Erstellung erfolgen.
- Stellen Sie fest, ob Amazon CloudWatch Logs oder Amazon Kinesis Data Firehose das geeignete Ziel für Redis OSS-Engine-Protokolle ist.
- Wählen Sie ein geeignetes Zielprotokoll in CloudWatch oder Kinesis Data Firehose aus, um die Protokolle beizubehalten. Wenn Sie mehrere Cluster haben, sollten Sie für jeden Cluster ein anderes Zielprotokoll verwenden, da Daten bei der Fehlerbehebung so besser isoliert werden können.
[Ressourcen]:
- Protokollzustellung: Protokollzustellung
- Ziele für die Protokollierung: Amazon CloudWatch Logs
- Einführung in Amazon CloudWatch Logs: Was ist Amazon CloudWatch Logs?
- Einführung in Amazon Kinesis Data Firehose: Was ist Amazon Kinesis Data Firehose?
[Am besten] Wenn Sie Amazon CloudWatch Logs verwenden, sollten Sie Amazon CloudWatch Logs Insights nutzen, um das Valkey- oder Redis OSS-Engine-Protokoll nach wichtigen Informationen abzufragen.

Erstellen Sie als Beispiel eine Abfrage für die CloudWatch Log-Gruppe, die die Logs der Valkey- oder Redis-OSS-Engine enthält, die Ereignisse mit dem Zusatz „WARNING“ zurückgeben, wie zum Beispiel: LogLevel
```
fields @timestamp, LogLevel, Message
| sort @timestamp desc
| filter LogLevel = "WARNING"
```
[Ressourcen]: Analysieren von Protokolldaten mit CloudWatch Logs Insights

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

ElastiCache Well-Architected Amazon-Objektiv

Säule der Sicherheit