Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überwachen von Workload-Ressourcen
Protokolle und Metriken sind leistungsstarke Tools, mit denen Sie sich einen Überblick über den Zustand Ihrer Workload verschaffen können. Sie können Ihre Workload so konfigurieren, dass Protokolle und Metriken überwacht und Benachrichtigungen gesendet werden, wenn Schwellenwerte überschritten werden oder wichtige Ereignisse auftreten. Dank der Überwachung kann die Workload erkennen, wenn Schwellenwerte für eine niedrige Leistung unterschritten werden oder Ausfälle auftreten, sodass als Reaktion drauf eine automatische Wiederherstellung erfolgen kann.
Die Überwachung ist wichtig, um sicherzustellen, dass Sie Ihre Verfügbarkeitsanforderungen erfüllen. Ausschlaggebend ist eine effektive Fehlererkennung. Die größte Herausforderung sind nicht angezeigte Fehler, bei denen die Funktionalität nicht mehr gegeben ist, was aber nur indirekt erkennbar ist. Ihre Kunden stellen dies vor Ihnen fest. Zu den vorrangigen Zwecken der Überwachung zählt, dass Sie bei Problemen benachrichtigt werden. Alarme sollten so weit wie möglich von Ihren Systemen entkoppelt werden. Wenn aufgrund einer Serviceunterbrechung keine Benachrichtigungen mehr gesendet können, verzögert sich die Behebung.
Bei AWS instrumentieren wir unsere Anwendungen auf mehreren Ebenen. Wir erfassen die Latenz, die Fehlerraten und die Verfügbarkeit für die einzelnen Anfragen, für alle Abhängigkeiten und für wichtige Vorgänge innerhalb des Prozesses. Außerdem erfassen wir Metriken zu den wichtigsten Vorgängen. Damit können wir drohende Probleme noch vor ihrem Auftreten erkennen. Wir berücksichtigen nicht nur die durchschnittliche Latenz. Wir konzentrieren uns noch genauer auf Latenz-Ausreißer wie das 99,9. und 99,99. Perzentil. Denn selbst wenn nur eine Anfrage von 1 000 oder 10 000 langsam verarbeitet wird, ist das eine schlechte Leistung. Wenn der Durchschnittswert in Ordnung ist, aber eine von 100 Anfragen bei wachsendem Datenverkehr eine extreme Latenz verursacht, wird sich dies letztlich zu einem Problem entwickeln.
Die Überwachung bei AWS besteht aus vier verschiedenen Phasen:
-
Generierung – Überwachen aller Komponenten für die Workload
-
Aggregierung – Definieren und Berechnen von Metriken
-
Verarbeitung und Benachrichtigung in Echtzeit – Senden von Benachrichtigungen und Automatisieren von Antworten
-
Speicher und Analytik
Bewährte Methoden
- REL06-BP01 Alle Komponenten für den Workload überwachen (Generation)
- REL06-BP02 Definieren und Berechnen von Metriken (Aggregierung)
- REL06-BP03 Benachrichtigungen senden (Verarbeitung und Alarmierung in Echtzeit)
- REL06-BP04 Automatisierte Antworten (Verarbeitung und Alarmierung in Echtzeit)
- REL06-BP05 Logs analysieren
- REL06-BP06 Regelmäßiges Durchführen von Prüfungen von Umfang und Metriken
- REL06-BP07 Überwachen Sie die end-to-end Nachverfolgung von Anfragen durch Ihr System