Reduzieren MTTD - Verfügbarkeit und mehr: Verständnis und Verbesserung der Widerstandsfähigkeit verteilter Systeme auf AWS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Reduzieren MTTD

Um die Anzahl MTTD der Fehler zu reduzieren, muss der Fehler so schnell wie möglich entdeckt werden. Die Verkürzung hängt MTTD von der Beobachtbarkeit ab, d. h. davon, wie Sie Ihren Workload instrumentiert haben, um seinen Status zu verstehen. Kunden sollten ihre Kennzahlen zur Kundenzufriedenheit in den kritischen Subsystemen ihrer Workloads überwachen, um proaktiv zu erkennen, wann ein Problem auftritt (siehe Anhang 1). Weitere Informationen zu diesen Kennzahlen finden MTTD Sie auch bei MTTR kritischen Kennzahlen. ). Kunden können Amazon CloudWatch Synthetics verwenden, um Kanarien zu erstellen, die Ihr System APIs und Ihre Konsolen überwachen, um die Benutzererfahrung proaktiv zu messen. Es gibt eine Reihe anderer Zustandsprüfungsmechanismen, die verwendet werden können, um diese zu minimierenMTTD, z. B. Elastic Load Balancing (ELB) -Zustandsprüfungen, Amazon Route 53-Zustandsprüfungen und mehr. (Siehe Amazon Builders' Library — Implementierung von Zustandsprüfungen.)

Ihre Überwachung muss auch in der Lage sein, Teilausfälle sowohl des Systems als Ganzes als auch Ihrer einzelnen Subsysteme zu erkennen. Ihre Verfügbarkeits-, Ausfall- und Latenzkennzahlen sollten die Dimensionalität Ihrer Fehlerisolationsgrenzen als CloudWatch metrische Dimensionen verwenden. Stellen Sie sich zum Beispiel eine einzelne EC2 Instanz vor, die Teil einer zellenbasierten Architektur ist, in der use1-az1 AZ, in der Region us-east-1, die Teil des Updates des Workloads ist, das Teil seines API Steuerebenen-Subsystems ist. Wenn der Server seine Messobjekte überträgt, kann er seine Instanz-ID, AZ, Region, API Namen und Subsystemnamen als Dimensionen verwenden. Auf diese Weise können Sie die Daten beobachten und Alarme für jede dieser Dimensionen einrichten, um Fehler zu erkennen.