Stufe 4: Bedienen - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Stufe 4: Bedienen

Nachdem Sie Phase 3: Evaluieren und Testen abgeschlossen haben, sind Sie bereit, die Anwendung in der Produktion bereitzustellen. In der Operate-Phase stellen Sie Ihre Anwendung in der Produktion bereit und verwalten das Kundenerlebnis.  Der Entwurf und die Implementierung Ihrer Anwendung bestimmen viele der Ergebnisse der Ausfallsicherheit. In dieser Phase stehen jedoch die betrieblichen Verfahren im Mittelpunkt, mit denen Ihr System die Ausfallsicherheit aufrechterhält und verbessert. Der Aufbau einer Kultur betrieblicher Exzellenz trägt dazu bei, Standards und Konsistenz in diesen Verfahren zu schaffen.

Beobachtbarkeit

Der wichtigste Teil des Verständnisses des Kundenerlebnisses besteht in der Überwachung und Alarmierung. Sie müssen Ihre Anwendung instrumentieren, um ihren Status zu verstehen, und Sie benötigen unterschiedliche Perspektiven, was bedeutet, dass Sie sowohl von der Server- als auch von der Clientseite aus messen müssen, was in der Regel bei Kanarienvögeln der Fall ist. Ihre Messwerte sollten Daten über die Interaktionen Ihrer Anwendung mit ihren Abhängigkeiten und Dimensionen enthalten, die Ihren Grenzen zur Fehlerisolierung entsprechen. Sie sollten auch Protokolle erstellen, die zusätzliche Details zu jeder von Ihrer Anwendung ausgeführten Arbeitseinheit enthalten. Sie könnten erwägen, Metriken und Protokolle zu kombinieren, indem Sie eine Lösung wie das CloudWatcheingebettete Metrikformat von Amazon verwenden. Sie werden wahrscheinlich feststellen, dass Sie immer mehr Beobachtbarkeit wünschen. Berücksichtigen Sie daher die Kompromisse zwischen Kosten, Aufwand und Komplexität, die für die Implementierung der gewünschten Instrumentierung erforderlich sind.

Die folgenden Links bieten bewährte Methoden für die Instrumentierung Ihrer Anwendung und die Erstellung von Alarmen:

Verwaltung von Veranstaltungen

Sie sollten über einen Event-Management-Prozess verfügen, um mit Beeinträchtigungen umzugehen, wenn Ihre Alarmanlagen (oder schlimmer noch, Ihre Kunden) Ihnen mitteilen, dass etwas schief läuft. Dieser Prozess sollte die Beauftragung eines Bereitschaftsdienstmitarbeiters, die Eskalation von Problemen und die Einrichtung von Runbooks für konsistente Lösungsansätze beinhalten, mit denen menschliche Fehler vermieden werden können. Beeinträchtigungen treten jedoch in der Regel nicht isoliert auf. Eine einzelne Anwendung kann sich auf mehrere andere Anwendungen auswirken, die von ihr abhängig sind. Sie können Probleme schnell lösen, indem Sie alle betroffenen Anwendungen verstehen und Mitarbeiter aus mehreren Teams in einer einzigen Telefonkonferenz zusammenbringen. Je nach Größe und Struktur Ihres Unternehmens kann dieser Prozess jedoch ein zentralisiertes Betriebsteam erfordern.

Zusätzlich zur Einrichtung eines Event-Management-Prozesses sollten Sie Ihre Kennzahlen regelmäßig anhand von Dashboards überprüfen. Regelmäßige Überprüfungen helfen Ihnen dabei, das Kundenerlebnis und die längerfristigen Trends bei der Leistung Ihrer Anwendung besser zu verstehen. Auf diese Weise können Sie Probleme und Engpässe erkennen, bevor sie erhebliche Auswirkungen auf die Produktion haben. Eine konsistente, standardisierte Überprüfung der Kennzahlen bietet erhebliche Vorteile, erfordert jedoch die Zustimmung von oben nach unten und einen hohen Zeitaufwand.

Die folgenden Links bieten bewährte Methoden zur Erstellung von Dashboards und zur Überprüfung betrieblicher Kennzahlen:

Kontinuierliche Belastbarkeit

In Phase 2: Design und Implementierung und Phase 3: Evaluieren und Testen haben Sie Überprüfungs- und Testaktivitäten eingeleitet, bevor Sie Ihre Anwendung in der Produktion einsetzen. Während der Betriebsphase sollten Sie diese Aktivitäten in der Produktion weiter wiederholen. Sie sollten die Resilienz Ihrer Anwendung regelmäßig anhand von AWS Well-Architected Framework-Reviews, Operational Readiness Readiness Readiness Reviews (ORRs) und dem Resilienzanalyse-Framework überprüfen. Auf diese Weise können Sie sicherstellen, dass Ihre Anwendung nicht von den etablierten Grundlagen und Standards abweicht, und Sie bleiben über neue oder aktualisierte Leitlinien auf dem Laufenden. Diese kontinuierlichen Resilienzaktivitäten helfen Ihnen dabei, bisher unerwartete Störungen zu entdecken und neue Abhilfemaßnahmen zu finden.

Vielleicht möchten Sie auch erwägen, Spieltage und Experimente zur Chaos-Technik in der Produktion durchzuführen, nachdem Sie sie erfolgreich in Vorproduktionsumgebungen durchgeführt haben. An Spieltagen werden bekannte Ereignisse simuliert, zu deren Abmilderung Sie Resilienzmechanismen eingerichtet haben. An einem Spieltag könnte beispielsweise eine regionale Beeinträchtigung des Dienstes simuliert und ein AWS regionsübergreifendes Failover implementiert werden. Die Implementierung dieser Aktivitäten kann zwar mit erheblichem Aufwand verbunden sein, aber beide Methoden helfen Ihnen dabei, die Gewissheit zu gewinnen, dass Ihr System den Ausfallarten standhält, für die Sie es konzipiert haben.

Durch den Betrieb Ihrer Anwendungen, die Beobachtung betrieblicher Ereignisse, die Überprüfung von Kennzahlen und das Testen Ihrer Anwendung bieten sich Ihnen zahlreiche Gelegenheiten, darauf zu reagieren und zu lernen.