REL11-BP01 Überwachen Sie alle Komponenten des Workloads, um Fehler zu erkennen - Säule der Zuverlässigkeit

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

REL11-BP01 Überwachen Sie alle Komponenten des Workloads, um Fehler zu erkennen

Überwachen Sie den Zustand Ihrer Workload kontinuierlich, damit Sie und Ihre automatisierten Systeme auf Fehler oder Verschlechterungen aufmerksam werden, sobald diese auftreten. Achten Sie auf wichtige Leistungsindikatoren (KPIs), die auf dem Geschäftswert basieren.

Alle Wiederherstellungs- und Reparaturmechanismen müssen auf eine schnelle Erkennung von Problemen ausgelegt sein. Technische Fehler sollten zuerst erkannt werden, damit sie behoben werden können. Die Verfügbarkeit hängt jedoch von der Fähigkeit Ihres Workloads ab, einen geschäftlichen Nutzen zu erzielen. Daher müssen wichtige Leistungsindikatoren (KPIs), mit denen dies gemessen wird, Teil Ihrer Erkennungs- und Problembehebungsstrategie sein.

Gewünschtes Ergebnis: Wesentliche Komponenten einer Workload werden unabhängig überwacht, um Fehler zu erkennen und anzuzeigen, wann und wo sie auftreten.

Typische Anti-Muster:

  • Es sind keine Alarme konfiguriert, sodass Ausfälle ohne Benachrichtigung auftreten.

  • Alarme sind vorhanden, aber mit Schwellenwerten, die keine ausreichende Zeit für die Reaktion bieten.

  • Metriken werden nicht oft genug erfasst, um das Ziel der Wiederherstellungszeit (RTO) zu erreichen.

  • Nur die kundenorientierten Schnittstellen der Workload werden aktiv überwacht.

  • Es werden nur technische Metriken erfasst, keine Metriken für Geschäftsfunktionen.

  • Es gibt keine Metriken, die die Benutzererfahrung der Workload messen.

  • Es werden zu viele Überwachungen erstellt.

Vorteile der Nutzung dieser bewährten Methode: Mit einer angemessenen Überwachung auf allen Ebenen können Sie die Wiederherstellungszeit reduzieren, indem Sie die Zeit bis zur Erkennung verkürzen.

Risikostufe, wenn diese bewährte Methode nicht eingeführt wird: Hoch

Implementierungsleitfaden

Identifizieren Sie alle Workloads, die für die Überwachung überprüft werden sollen. Sobald Sie alle zu überwachenden Komponenten der Workload identifiziert haben, müssen Sie das Überwachungsintervall festlegen. Das Überwachungsintervall wirkt sich direkt darauf aus, wie schnell eine Wiederherstellung eingeleitet werden kann (abhängig davon, wie lange die Erkennung eines Fehlers dauert). Die mittlere Zeit bis zur Erkennung (MTTD) ist die Zeitspanne zwischen dem Auftreten eines Fehlers und dem Beginn der Reparaturarbeiten. Die Liste der Services sollte umfassend und vollständig sein.

Die Überwachung muss alle Ebenen des Anwendungs-Stacks (inklusive Anwendung, Plattform, Infrastruktur und Netzwerk) abdecken.

Ihre Überwachungsstrategie sollte außerdem die Auswirkungen von grauen Fehlern berücksichtigen. Weitere Informationen zu grauen Fehlern finden Sie unter Graue Fehler im Whitepaper „Erweiterte Multi-AZ Resilience-Muster“.

Implementierungsschritte

  • Das Überwachungsintervall hängt davon ab, wie schnell Wiederherstellungen durchgeführt werden müssen. Ihre Wiederherstellungszeit hängt von der Zeit ab, die für die Wiederherstellung benötigt wird. Daher müssen Sie die Häufigkeit der Datenerfassung bestimmen, indem Sie diese Zeit und Ihr Ziel für die Wiederherstellung berücksichtigen (RTO).

  • Konfigurieren Sie eine detaillierte Überwachung für Komponenten und verwaltete Services.

  • Erstellen Sie benutzerdefinierte Metriken zur Messung der wichtigsten Unternehmensleistungsindikatoren (KPIs). Workloads implementieren wichtige Geschäftsfunktionen, die verwendet werden sollten, um zu erkennenKPIs, wann ein indirektes Problem auftritt.

  • Überwachen Sie das Benutzererlebnis mithilfe von Benutzer-Canarys auf Fehler. Synthetische Transaktionstests (auch bekannt als Canary-Tests, aber nicht zu verwechseln mit Canary-Bereitstellungen), die das Kundenverhalten simulieren können, gehören zu den wichtigsten Testprozessen. Führen Sie diese Tests für Ihre Workload-Endpunkte konstant von verschiedenen Remote-Standorten aus.

  • Erstellen Sie benutzerdefinierte Metriken zur Verfolgung des Benutzererlebnisses. Wenn Sie das Kundenerlebnis instrumentieren können, können Sie die Verschlechterung des Kundenerlebnisses feststellen.

  • Richten Sie Alarme ein, um zu erkennen, wenn ein Teil Ihrer Workload nicht ordnungsgemäß funktioniert, und um anzuzeigen, wann die Ressourcen automatisch skaliert werden müssen. Alarme können visuell auf Dashboards angezeigt werden, Benachrichtigungen über Amazon SNS oder E-Mail senden und mit Auto Scaling die Workload-Ressourcen nach oben oder unten skalieren.

  • Erstellen Sie Dashboards, um Ihre Metriken zu visualisieren. Dashboards können verwendet werden, um Trends, Ausreißer und andere Indikatoren für potenzielle Probleme zu visualisieren, und auf Probleme hinweisen, die Sie untersuchen sollten.

  • Erstellen Sie eine verteilte Ablaufverfolgungsüberwachung für Ihre Services. Mit der verteilten Überwachung können Sie nachvollziehen, wie Ihre Anwendung und die ihr zugrunde liegenden Services arbeiten, um die Ursache von Leistungsproblemen und Fehlern zu identifizieren und zu beheben.

  • Erstellen Sie Dashboards und Datenerfassung für Überwachungssysteme (mithilfe von X-Ray CloudWatchoder X-Ray) in einer separaten Region und einem separaten Konto.

  • Erstellen Sie eine Integration für die Amazon Health Aware-Überwachung, um die Überwachung von AWS Ressourcen zu ermöglichen, bei denen es zu Leistungseinbußen kommen könnte. Für geschäftskritische Workloads bietet diese Lösung Zugriff auf proaktive Benachrichtigungen in Echtzeit für Services. AWS

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente:

Zugehörige Videos:

Zugehörige Beispiele:

Zugehörige Tools: