Grundlegendes zu Kompromissen und Risiken - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Grundlegendes zu Kompromissen und Risiken

Ausfallsichere Architekturen sollten eine Handvoll bewährter, einfacher und zuverlässiger Mechanismen verwenden, um auf Ausfälle zu reagieren. Um ein Höchstmaß an Ausfallsicherheit zu erreichen, sollten Workloads so viele Fehlermodi wie möglich automatisch erkennen und wiederherstellen. Dies erfordert umfangreiche Investitionen in die Durchführung von Resilienzanalysen. Das bedeutet, dass eine höhere Resilienz bedeutet, dass Kompromisse eingegangen werden müssen. Wenn Sie jedoch weiterhin Kompromisse eingehen, erreichen Sie einen Punkt, an dem die Rückgaben im Verhältnis zu Ihren Resilienzzielen sinken. Hier sind die typischen Kompromisse:

  • Kosten – Redundante Komponenten, verbesserte Beobachtbarkeit, zusätzliche Tools oder eine erhöhte Ressourcennutzung führen zu höheren Kosten.

  • Systemkomplexität – Das Erkennen und Reagieren auf Fehlermodi, einschließlich der Abschwächungslösungen, und möglicherweise nicht die Verwendung verwalteter Services, führt zu einer erhöhten Systemkomplexität.

  • Entwicklungsaufwand – Für die Entwicklung von Lösungen zur Erkennung von Fehlermodi und zur Reaktion darauf sind zusätzliche Entwicklerstunden erforderlich.

  • Betriebsaufwand – Die Überwachung und der Betrieb eines Systems, das mehr Fehlermodi verarbeitet, kann zu Betriebsaufwand führen, insbesondere wenn Sie verwaltete Services nicht verwenden können, um bestimmte Fehlermodi zu minimieren.

  • Latenz und Konsistenz – Der Aufbau verteilter Systeme, die Verfügbarkeit bevorzugen, erfordert Kompromisse in Bezug auf Konsistenz und Latenz, wie im PACELC-Theorem beschrieben.

Die Wahrscheinlichkeit, Resilienzziele auf der Grundlage der getroffenen Kompromisse zu erreichen, bei denen Sie einen Punkt erreichen, an dem die Rückgaben sinken

Berücksichtigen Sie bei der Berücksichtigung der Abhilfemaßnahmen für die identifizierten Fehlermodi in der User History die Kompromisse, die Sie treffen müssen. Wie bei der Sicherheit ist Resilienz ein Optimierungsproblem. Sie müssen eine Entscheidung darüber treffen, ob Sie die Risiken vermeiden, mindern, übertragen oder akzeptieren sollen, die sich aus dem identifizierten Fehler ergeben. Es kann einige Fehlermodi geben, die Sie vermeiden können, einen Satz, den Sie akzeptieren, und einige, die Sie übertragen können. Sie können sich dafür entscheiden, viele der von Ihnen identifizierten Fehlermodi zu minimieren. Um zu bestimmen, welchen Ansatz Sie wählen sollten, führen Sie eine Bewertung durch, indem Sie zwei Fragen stellen: Wie hoch ist die Wahrscheinlichkeit, dass der Fehler auftritt? Welche Auswirkungen hat dies auf den Workload?

Bei Likeli microSD handelt es sich um die Art und Weise, wie ein Ereignis eintritt. Wenn die Benutzererfahrung beispielsweise eine Komponente hat, die auf einer einzelnen Amazon Elastic Compute Cloud (Amazon EC2)-Instance funktioniert, kann die Komponente irgendwann während des Betriebs des Systems unterbrochen werden, möglicherweise aufgrund von Patching-Verfahren oder Betriebssystemfehlern. Alternativ hat eine Datenbank, die von Amazon Relational Database Service (Amazon RDS) verwaltet wird und Daten zwischen ihren primären und sekundären Instances synchronisiert, eine geringe Wahrscheinlichkeit, vollständig nicht verfügbar zu sein.

Auswirkung ist eine Schätzung des Gesundheitszustands, den ein Ereignis verursachen kann. Sie sollte sowohl aus finanzieller als auch aus Reputationssicht bewertet werden und bezieht sich auf den Wert der Benutzererfahrungen, auf die sie sich auswirkt. Beispielsweise könnte eine überlastete Datenbank erhebliche Auswirkungen auf die Fähigkeit eines E-Commerce-Systems haben, neue Bestellungen anzunehmen. Der Verlust einer einzelnen Instance aus einer Flotte von 20 Instances hinter einem Load Balancer hätte jedoch wahrscheinlich sehr geringe Auswirkungen.

Sie können die Antworten auf diese Fragen mit den Kosten der Kompromisse vergleichen, die Sie ergreifen müssen, um das Risiko zu minimieren. Wenn Sie diese Informationen im Hinblick auf Ihren Risikoschwellenwert und Ihre Resilienzziele berücksichtigen, trifft sie Ihre Entscheidung darüber, welche Fehlermodi Sie aktiv minimieren möchten.