Planung Ihres AWS FISExperimente - AWS Fehlerinjektionsservice

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Planung Ihres AWS FISExperimente

Bei der Fehlerinjektion wird eine Anwendung in Test- oder Produktionsumgebungen durch störende Ereignisse wie Serverausfälle oder API Drosselung belastet. Wenn Sie beobachten, wie das System reagiert, können Sie dann Verbesserungen vornehmen. Wenn Sie Experimente an Ihrem System durchführen, kann es Ihnen helfen, systemische Schwächen kontrolliert zu identifizieren, bevor sich diese Schwächen auf die Kunden auswirken, die von Ihrem System abhängig sind. Anschließend können Sie die Probleme proaktiv angehen, um unvorhersehbare Ergebnisse zu vermeiden.

Bevor Sie mit der Durchführung von Fault-Injection-Experimenten beginnen, verwenden Sie AWS FIS, wir empfehlen Ihnen, sich mit den folgenden Prinzipien und Richtlinien vertraut zu machen.

Wichtig

AWS FISführt echte Aktionen auf realen AWS Ressourcen in Ihrem System. Deshalb, bevor Sie mit der Verwendung beginnen AWS FISFür die Durchführung von Experimenten empfehlen wir dringend, zunächst eine Planungsphase und einen Test in einer Vorproduktions- oder Testumgebung abzuschließen.

Grundprinzipien und Richtlinien

Bevor Sie mit Experimenten beginnen mit AWS FIS, führen Sie die folgenden Schritte aus:

  1. Identifizieren Sie die Zielbereitstellung für das Experiment — Identifizieren Sie zunächst die Zielbereitstellung. Wenn dies Ihr erstes Experiment ist, empfehlen wir, in einer Vorproduktions- oder Testumgebung zu beginnen.

  2. Überprüfen Sie die Anwendungsarchitektur — Sie müssen sicherstellen, dass Sie alle Anwendungskomponenten, Abhängigkeiten und Wiederherstellungsverfahren für jede Komponente identifiziert haben. Beginnen Sie mit der Überprüfung der Anwendungsarchitektur. Je nach Anwendung finden Sie weitere Informationen in AWS Well-Architected Framework.

  3. Definieren Sie das stationäre Verhalten Ihres Systems — Definieren Sie das stationäre Verhalten Ihres Systems anhand wichtiger technischer und geschäftlicher Kennzahlen wie Latenz, Auslastung, fehlgeschlagene Anmeldungen pro Minute, Anzahl der Wiederholungen oder CPU Seitenladegeschwindigkeit.

  4. Stellen Sie eine Hypothese auf — Stellen Sie eine Hypothese darüber auf, wie sich das Systemverhalten während des Experiments voraussichtlich ändern wird. Eine Hypothesendefinition folgt diesem Format:

    Wenn fault injection action wird durchgeführt, der business or technical metric impact sollte nicht überschreiten value.

    Eine Hypothese für einen Authentifizierungsdienst könnte beispielsweise wie folgt lauten: „Wenn die Netzwerklatenz um 10% zunimmt, nimmt die Anzahl der Anmeldefehler um weniger als 1% zu.“ Nach Abschluss des Experiments bewerten Sie, ob die Ausfallsicherheit der Anwendung Ihren geschäftlichen und technischen Erwartungen entspricht.

Wir empfehlen außerdem, diese Richtlinien zu befolgen, wenn Sie mit AWS FIS:

  • Fangen Sie immer an, mit zu experimentieren AWS FISin einer Testumgebung. Beginnen Sie niemals mit einer Produktionsumgebung. Wenn Sie mit Ihren Experimenten zur Fehlerinjektion vorankommen, können Sie auch in anderen kontrollierten Umgebungen außerhalb der Testumgebung experimentieren.

  • Stärken Sie das Vertrauen Ihres Teams in die Resilienz Ihrer Anwendung, indem Sie mit kleinen, einfachen Experimenten beginnen, wie z. B. der Ausführung der Aktion aws:ec2:stop-instances auf einem Ziel.

  • Die Fehlerinjektion kann zu echten Problemen führen. Gehen Sie vorsichtig vor und stellen Sie sicher, dass Ihre ersten Fehlerinjektionen auf Testinstanzen erfolgen, damit keine Kunden betroffen sind.

  • Testen, testen und noch mehr testen. Die Fehlerinjektion soll in einer kontrollierten Umgebung mit gut geplanten Experimenten implementiert werden. Auf diese Weise können Sie Vertrauen in die Fähigkeiten Ihrer Anwendung und Ihrer Tools aufbauen, um turbulenten Bedingungen standzuhalten.

  • Wir empfehlen dringend, dass Sie über ein hervorragendes Überwachungs- und Warnprogramm verfügen, bevor Sie beginnen. Ohne dieses Programm werden Sie nicht in der Lage sein, die Auswirkungen Ihrer Experimente zu verstehen oder zu messen, was für nachhaltige Verfahren zur Fehlerinjektion von entscheidender Bedeutung ist.

Richtlinien für die Planung von Experimenten

Mit AWS FIS, du führst Experimente mit deinem AWS Ressourcen, um Ihre Theorie darüber zu testen, wie sich eine Anwendung oder ein System unter Fehlerbedingungen verhalten wird.

Im Folgenden finden Sie empfohlene Richtlinien für die Planung Ihres AWS FISExperimente.

  • Ausfallverlauf überprüfen — Sehen Sie sich die vorherigen Ausfälle und Ereignisse für Ihr System an. Dies kann Ihnen helfen, sich ein Bild vom allgemeinen Zustand und der Widerstandsfähigkeit Ihres Systems zu machen. Bevor Sie mit der Durchführung von Experimenten auf Ihrem System beginnen, sollten Sie sich mit bekannten Problemen und Schwächen in Ihrem System befassen.

  • Identifizieren Sie die Dienste mit den größten Auswirkungen — Überprüfen Sie Ihre Dienste und identifizieren Sie diejenigen, die die größten Auswirkungen auf Ihre Endbenutzer oder Kunden haben, wenn sie ausfallen oder nicht richtig funktionieren.

  • Identifizieren Sie das Zielsystem — Das Zielsystem ist das System, auf dem Sie Experimente durchführen werden. Wenn Sie neu sind AWS FISFalls Sie noch nie zuvor Experimente zur Fehlerinjektion durchgeführt haben, empfehlen wir Ihnen, zunächst Experimente auf einem Vorproduktions- oder Testsystem durchzuführen.

  • Konsultieren Sie Ihr Team — Fragen Sie, worüber es sich Sorgen macht. Sie können eine Hypothese aufstellen, um ihre Bedenken zu beweisen oder zu widerlegen. Sie können Ihr Team auch fragen, worüber es sich keine Sorgen macht. Diese Frage kann zwei weit verbreitete Irrtümer aufdecken: den Sunk-Cost-Irrtum und den Confirmation Bias-Irrtum. Die Aufstellung einer Hypothese auf der Grundlage der Antworten Ihres Teams kann dazu beitragen, mehr Informationen über den tatsächlichen Zustand Ihres Systems zu erhalten.

  • Überprüfen Sie Ihre Anwendungsarchitektur — Führen Sie eine Überprüfung Ihres Systems oder Ihrer Anwendung durch und stellen Sie sicher, dass Sie alle Anwendungskomponenten, Abhängigkeiten und Wiederherstellungsverfahren für jede Komponente identifiziert haben.

    Wir empfehlen Ihnen, die AWS Well-Architected Framework. Das Framework kann Ihnen helfen, eine sichere, leistungsstarke, belastbare und effiziente Infrastruktur für Ihre Anwendungen und Workloads aufzubauen. Weitere Informationen finden Sie unter AWS Well-Architected.

  • Identifizieren Sie die anwendbaren Metriken — Sie können die Auswirkungen eines Experiments auf Ihre AWS Ressourcen, die CloudWatch Amazon-Metriken verwenden. Sie können diese Kennzahlen verwenden, um den Ausgangswert oder den „Steady-State“ zu ermitteln, zu dem Ihre Anwendung optimal funktioniert. Anschließend können Sie diese Messwerte während oder nach dem Experiment überwachen, um die Auswirkungen zu ermitteln. Weitere Informationen finden Sie unter Überwachen SieAWS die FIS-Nutzungskennzahlen mit Amazon CloudWatch.

  • Definieren Sie einen akzeptablen Leistungsschwellenwert für Ihr System — Identifizieren Sie die Metrik, die einen akzeptablen, stabilen Zustand für Ihr System darstellt. Sie verwenden diese Metrik, um einen oder mehrere CloudWatch Alarme zu erstellen, die eine Stoppbedingung für Ihr Experiment darstellen. Wenn der Alarm ausgelöst wird, wird das Experiment automatisch gestoppt. Weitere Informationen finden Sie unter Stoppbedingungen für AWS FIS.