Grundprinzipien und Richtlinien Richtlinien für die Planung von Experimenten

Planung Ihrer AWS FIS-Experimente

Bei der Fehlerinjektion wird eine Anwendung in Test- oder Produktionsumgebungen durch störende Ereignisse wie Serverausfälle oder API-Drosselung belastet. Wenn Sie beobachten, wie das System reagiert, können Sie dann Verbesserungen umsetzen. Wenn Sie Experimente an Ihrem System durchführen, kann es Ihnen helfen, systemische Schwächen kontrolliert zu identifizieren, bevor sich diese Schwächen auf die Kunden auswirken, die von Ihrem System abhängig sind. Anschließend können Sie die Probleme proaktiv angehen, um unvorhersehbare Ergebnisse zu vermeiden.

Bevor Sie mit der Durchführung von Experimenten zur Fehlerinjektion mit AWS FIS beginnen, empfehlen wir Ihnen, sich mit den folgenden Prinzipien und Richtlinien vertraut zu machen.

Wichtig

AWS FIS führt echte Aktionen an realen AWS Ressourcen in Ihrem System durch. Bevor Sie beginnen, AWS FIS zur Durchführung von Experimenten zu verwenden, empfehlen wir Ihnen daher dringend, zunächst eine Planungsphase und einen Test in einer Vorproduktions- oder Testumgebung abzuschließen.

Inhalt

Grundprinzipien und Richtlinien
Richtlinien für die Planung von Experimenten

Grundprinzipien und Richtlinien

Bevor Sie mit Experimenten mit AWS FIS beginnen, gehen Sie wie folgt vor:

Identifizieren Sie den Zieleinsatz für das Experiment — Identifizieren Sie zunächst den Zieleinsatz. Wenn dies Ihr erstes Experiment ist, empfehlen wir, in einer Vorproduktions- oder Testumgebung zu beginnen.
Überprüfen Sie die Anwendungsarchitektur — Sie müssen sicherstellen, dass Sie alle Anwendungskomponenten, Abhängigkeiten und Wiederherstellungsverfahren für jede Komponente identifiziert haben. Beginnen Sie mit der Überprüfung der Anwendungsarchitektur. Je nach Anwendung beziehen Sie sich auf das AWS Well-Architected Framework.
Definieren Sie das stationäre Verhalten Ihres Systems — Definieren Sie das stationäre Verhalten Ihres Systems anhand wichtiger technischer und geschäftlicher Kennzahlen wie Latenz, CPU-Last, fehlgeschlagene Anmeldungen pro Minute, Anzahl der Wiederholungen oder Seitenladegeschwindigkeit.
Stellen Sie eine Hypothese auf — Stellen Sie eine Hypothese darüber auf, wie sich das Systemverhalten während des Experiments voraussichtlich ändern wird. Eine Hypothesendefinition folgt diesem Format:

Wenn durchgeführt fault injection action wird, business or technical metric impact sollte der nicht überschritten value werden.

Eine Hypothese für einen Authentifizierungsdienst könnte beispielsweise wie folgt lauten: „Wenn die Netzwerklatenz um 10% zunimmt, nimmt die Anzahl der Anmeldefehler um weniger als 1% zu.“ Nach Abschluss des Experiments bewerten Sie, ob die Ausfallsicherheit der Anwendung Ihren geschäftlichen und technischen Erwartungen entspricht.

Wir empfehlen außerdem, bei der Arbeit mit AWS FIS die folgenden Richtlinien zu beachten:

Beginne immer, mit AWS FIS in einer Testumgebung zu experimentieren. Beginnen Sie niemals mit einer Produktionsumgebung. Wenn Sie mit Ihren Experimenten zur Fehlerinjektion vorankommen, können Sie auch in anderen kontrollierten Umgebungen außerhalb der Testumgebung experimentieren.
Stärken Sie das Vertrauen Ihres Teams in die Resilienz Ihrer Anwendung, indem Sie mit kleinen, einfachen Experimenten beginnen, wie z. B. der Ausführung der Aktion aws:ec2:stop-instances auf einem Ziel.
Die Fehlerinjektion kann zu echten Problemen führen. Gehen Sie vorsichtig vor und stellen Sie sicher, dass Ihre ersten Fehlerinjektionen auf Testinstanzen erfolgen, damit keine Kunden betroffen sind.
Testen, testen und noch mehr testen. Die Fehlerinjektion soll in einer kontrollierten Umgebung mit gut geplanten Experimenten implementiert werden. Auf diese Weise können Sie Vertrauen in die Fähigkeiten Ihrer Anwendung und Ihrer Tools aufbauen, um turbulenten Bedingungen standzuhalten.
Wir empfehlen dringend, dass Sie über ein hervorragendes Überwachungs- und Warnprogramm verfügen, bevor Sie beginnen. Ohne dieses Programm werden Sie nicht in der Lage sein, die Auswirkungen Ihrer Experimente zu verstehen oder zu messen, was für nachhaltige Verfahren zur Fehlerinjektion von entscheidender Bedeutung ist.

Richtlinien für die Planung von Experimenten

Mit AWS FIS führen Sie Experimente mit Ihren AWS Ressourcen durch, um Ihre Theorie zu testen, wie sich eine Anwendung oder ein System unter Fehlerbedingungen verhalten wird.

Im Folgenden finden Sie empfohlene Richtlinien für die Planung Ihrer AWS FIS-Experimente.

Ausfallverlauf überprüfen — Sehen Sie sich die vorherigen Ausfälle und Ereignisse für Ihr System an. Dies kann Ihnen helfen, sich ein Bild vom allgemeinen Zustand und der Widerstandsfähigkeit Ihres Systems zu machen. Bevor Sie mit der Durchführung von Experimenten auf Ihrem System beginnen, sollten Sie sich mit bekannten Problemen und Schwächen in Ihrem System befassen.
Identifizieren Sie die Dienste mit den größten Auswirkungen — Überprüfen Sie Ihre Dienste und identifizieren Sie diejenigen, die die größten Auswirkungen auf Ihre Endbenutzer oder Kunden haben, wenn sie ausfallen oder nicht richtig funktionieren.
Identifizieren Sie das Zielsystem — Das Zielsystem ist das System, auf dem Sie Experimente durchführen werden. Wenn Sie mit FIS noch nicht vertraut sind oder noch nie zuvor AWS Fault-Injection-Experimente durchgeführt haben, empfehlen wir Ihnen, zunächst Experimente auf einem Vorproduktions- oder Testsystem durchzuführen.
Konsultieren Sie Ihr Team — Fragen Sie, worüber es sich Sorgen macht. Sie können eine Hypothese aufstellen, um ihre Bedenken zu beweisen oder zu widerlegen. Sie können Ihr Team auch fragen, worüber es sich keine Sorgen macht. Diese Frage kann zwei weit verbreitete Irrtümer aufdecken: den Sunk-Cost-Irrtum und den Confirmation Bias-Irrtum. Die Aufstellung einer Hypothese auf der Grundlage der Antworten Ihres Teams kann dazu beitragen, mehr Informationen über den tatsächlichen Zustand Ihres Systems zu erhalten.
Überprüfen Sie Ihre Anwendungsarchitektur — Führen Sie eine Überprüfung Ihres Systems oder Ihrer Anwendung durch und stellen Sie sicher, dass Sie alle Anwendungskomponenten, Abhängigkeiten und Wiederherstellungsverfahren für jede Komponente identifiziert haben.

Wir empfehlen Ihnen, das AWS Well-Architected Framework zu lesen. Das Framework kann Ihnen helfen, eine sichere, leistungsstarke, belastbare und effiziente Infrastruktur für Ihre Anwendungen und Workloads aufzubauen. Weitere Informationen finden Sie unter AWS Well-Architected.
Identifizieren Sie die zutreffenden Kennzahlen — Sie können die Auswirkungen eines Experiments auf Ihre AWS Ressourcen mithilfe von CloudWatch Amazon-Metriken überwachen. Sie können diese Kennzahlen verwenden, um den Ausgangswert oder den „Steady-State“ zu ermitteln, zu dem Ihre Anwendung optimal funktioniert. Anschließend können Sie diese Messwerte während oder nach dem Experiment überwachen, um die Auswirkungen zu ermitteln. Weitere Informationen finden Sie unter Überwachen Sie die AWS FIS-Nutzungsmetriken mit Amazon CloudWatch.
Definieren Sie einen akzeptablen Leistungsschwellenwert für Ihr System — Identifizieren Sie die Metrik, die einen akzeptablen, stabilen Zustand für Ihr System darstellt. Sie verwenden diese Metrik, um einen oder mehrere CloudWatch Alarme zu erstellen, die eine Stoppbedingung für Ihr Experiment darstellen. Wenn der Alarm ausgelöst wird, wird das Experiment automatisch gestoppt. Weitere Informationen finden Sie unter Stoppbedingungen für AWS FIS.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Was ist AWS FIS?

Komponenten der Versuchsvorlage