REL12-BP05 Regelmäßiges Durchführen von Gamedays - Säule der Zuverlässigkeit

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

REL12-BP05 Regelmäßiges Durchführen von Gamedays

Führen Sie Gamedays durch, um Ihre Verfahren zur Reaktion auf Ereignisse und Beeinträchtigungen, die sich auf die Workloads auswirken, regelmäßig zu trainieren. Beziehen Sie dieselben Teams ein, die für die Bearbeitung von Produktionsszenarien verantwortlich wären. Diese Übungen helfen, Maßnahmen durchzusetzen, um eine Beeinträchtigung der Benutzer durch Ereignisse in der Produktionsumgebung zu verhindern. Wenn Sie Ihre Reaktionsverfahren unter realistischen Bedingungen üben, können Sie etwaige Lücken oder Schwächen erkennen und beheben, bevor ein tatsächliches Ereignis eintritt.

Bei Gamedays werden Ereignisse in produktionsähnlichen Umgebungen simuliert, um Systeme, Prozesse und die Reaktionen des Teams zu testen. Dabei sollen die Aktionen ausgeführt werden, die das Team im Falle eines tatsächlichen Eintretens des Ereignisses ausführen würde. So können Sie nachvollziehen, wo nachgebessert werden kann, und üben, mit Ereignissen und Beeinträchtigungen umzugehen. Gamedays sollten regelmäßig ausgeführt werden, damit Ihr Team tief verwurzelte Reaktionsgewohnheiten aufbaut.

Gamedays bereiten die Teams darauf vor, Produktionsereignisse mit größerer Sicherheit zu bewältigen. Geübte Teams sind besser in der Lage, verschiedene Szenarien schnell zu erkennen und darauf zu reagieren. Dies führt zu einer deutlich besseren Bereitschaft und Resilienz.

Gewünschtes Ergebnis: Sie veranstalten die Gamedays für Resilienz immer wieder zu geplanten Zeitpunkten. Diese Gamedays werden als normaler und erwarteter Teil der Geschäftstätigkeit angesehen. Ihr Unternehmen hat eine Kultur der Bereitschaft entwickelt, und wenn Produktionsprobleme auftreten, sind Ihre Teams gut darauf vorbereitet, effektiv zu reagieren, die Probleme effizient zu lösen und die Auswirkungen auf die Kunden zu minimieren.

Typische Anti-Muster:

  • Sie dokumentieren die eigenen Verfahren, trainieren diese aber nie.

  • Entscheidungsträger werden bei den Tests nicht mit einbezogen.

  • Sie veranstalten einen Gameday, informieren aber nicht alle relevanten Stakeholder.

  • Sie konzentrieren sich ausschließlich auf technische Fehler, beziehen aber geschäftliche Stakeholder nicht mit ein.

  • Sie lassen die bei den Gamedays gewonnenen Erkenntnisse nicht in Ihre Wiederherstellungsprozesse einfließen.

  • Sie geben den Teams die Schuld für Fehler oder Bugs.

Vorteile der Nutzung dieser bewährten Methode:

  • Verbesserung der Reaktionsfähigkeit: An Gamedays üben die Teams ihre Aufgaben und testen ihre Kommunikationsmechanismen bei simulierten Ereignissen. So kommt es zu einer besser koordinierten, effizienteren Reaktion in Produktionssituationen.

  • Identifizierung und Behebung von Abhängigkeiten: Komplexe Umgebungen beinhalten oft vielschichtige Abhängigkeiten zwischen verschiedenen Systemen, Services und Komponenten. Gamedays können Ihnen dabei helfen, diese Abhängigkeiten zu identifizieren und zu beheben und zu überprüfen, ob Ihre kritischen Systeme und Services ordnungsgemäß durch Ihre Runbook-Verfahren abgedeckt sind und zeitnah hochskaliert oder wiederhergestellt werden können.

  • Förderung einer Kultur der Resilienz: Gamedays können dazu beitragen, eine Haltung der Resilienz innerhalb eines Unternehmens zu fördern. Wenn Sie funktionsübergreifende Teams und Stakeholder einbeziehen, fördern diese Übungen das Bewusstsein, die Zusammenarbeit und ein gemeinsames Verständnis für die Bedeutung von Resilienz im gesamten Unternehmen.

  • Kontinuierliche Verbesserung und Anpassung: Regelmäßige Gamedays helfen Ihnen, Ihre Resilienzstrategien kontinuierlich zu bewerten und anzupassen, sodass sie auch bei sich ändernden Umständen relevant und wirksam bleiben.

  • Stärkung des Vertrauens in das System: Erfolgreiche Gamedays tragen dazu bei, Vertrauen in die Fähigkeit des Systems aufzubauen, Störungen standzuhalten und sich von ihnen zu erholen.

Risikostufe bei fehlender Befolgung dieser bewährten Methode: Mittel

Implementierungsleitfaden

Sobald Sie die erforderlichen Resilienzmaßnahmen entwickelt und umgesetzt haben, führen Sie einen Gameday durch, um zu überprüfen, ob in der Produktion alles wie geplant funktioniert. An einem Gameday, insbesondere am ersten Gameday, sollten alle Teammitglieder beteiligt sein und alle Stakeholder und Teilnehmer sollten vorab über das Datum, die Uhrzeit und die simulierten Szenarien informiert werden.

Während des Gamedays simulieren die beteiligten Teams verschiedene Ereignisse und mögliche Szenarien gemäß den vorgeschriebenen Verfahren. Die Teilnehmer beobachten und bewerten die Auswirkungen dieser simulierten Ereignisse genau. Wenn das System wie vorgesehen funktioniert, sollten die automatischen Erkennungs-, Skalierungs- und Selbstreparaturmechanismen aktiviert werden und das Ereignis sollte nur geringe bis keine Auswirkungen auf die Benutzer haben. Wenn das Team negative Auswirkungen feststellt, setzt es den Test zurück und behebt die festgestellten Probleme, entweder auf automatisiertem Wege oder durch manuelles Eingreifen, wie in den entsprechenden Runbooks dokumentiert.

Um die Resilienz kontinuierlich zu verbessern, ist es wichtig, die gewonnenen Erkenntnisse zu dokumentieren und zu berücksichtigen. Bei diesem Prozess handelt es sich um eine Feedback-Schleife, die systematisch Erkenntnisse aus Gamedays erfasst und zur Verbesserung von Systemen, Prozessen und Teamfähigkeiten nutzt.

Um leichter reale Szenarien reproduzieren zu können, in denen Systemkomponenten oder Services möglicherweise unerwartet ausfallen, können Sie simulierte Fehler als Gameday-Übung einbauen. Die Teams können die Resilienz und Fehlertoleranz ihrer Systeme testen und ihre Reaktions- und Wiederherstellungsprozesse in einer kontrollierten Umgebung simulieren.

In AWS können Ihre Gamedays mit Replikaten Ihrer Produktionsumgebung unter Verwendung von Infrastructure as Code durchgeführt werden. Auf diese Weise können Sie Ihre Tests in einer sicheren Umgebung durchführen, die Ihrer Produktionsumgebung sehr ähnlich ist. Ziehen Sie die Verwendung von AWS Fault Injection Service in Betracht, um verschiedene Ausfallszenarien zu erstellen. Verwenden Sie Services wie Amazon CloudWatch und AWS X-Ray, um das Systemverhalten an Gamedays zu überwachen. Verwenden Sie AWSSystems Manager für die Verwaltung und Ausführung von Playbooks und AWS Step Functions zur Orchestrierung von wiederkehrenden Workflows am Gameday.

Implementierungsschritte

  • Einrichtung eines Programms für den Gameday: Entwickeln Sie ein strukturiertes Programm, das die Häufigkeit, den Umfang und die Ziele der Gamedays festlegt. Binden Sie wichtige Stakeholder und Fachexperten in die Planung und Durchführung dieser Übungen ein.

  • Vorbereitung des Gamedays:

    1. Identifizieren Sie die wichtigsten geschäftskritischen Services, um die es bei dem Gameday gehen soll. Katalogisieren Sie die Mitarbeiter, Prozesse und Technologien, die diese Services unterstützen, und ordnen Sie sie zu.

    2. Legen Sie die Agenda für den Gameday fest und bereiten Sie die beteiligten Teams auf die Teilnahme an dem Event vor. Bereiten Sie Ihre Automatisierungsservices so vor, dass sie die geplanten Szenarien simulieren und die entsprechenden Wiederherstellungsprozesse ausführen. AWS-Services wie AWS Fault Injection Service, AWS Step Functions und AWS Systems Manager können Ihnen dabei helfen, verschiedene Aspekte von Gamedays zu automatisieren, beispielsweise das Einschleusen von Fehlern und das Einleiten von Wiederherstellungsaktionen.

  • Ausführung Ihrer Simulation: Führen Sie am Gameday das geplante Szenario aus. Beobachten und dokumentieren Sie, wie Mitarbeiter, Prozesse und Technologien auf das simulierte Ereignis reagieren.

  • Durchführung von Prüfungen nach der Übung: Führen Sie nach dem Gameday eine Retrospektive durch, um die gewonnenen Erkenntnisse zu überprüfen. Identifizieren Sie Bereiche mit Verbesserungspotenzial und alle Maßnahmen, die zur Verbesserung der betrieblichen Resilienz erforderlich sind. Dokumentieren Sie Ihre Ergebnisse und verfolgen Sie alle notwendigen Änderungen, um Ihre Resilienzstrategien und Ihre Bereitschaft zu verbessern.

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente:

Zugehörige Videos:

Zugehörige Beispiele: