REL11-BP06 Benachrichtigungen senden, wenn Ereignisse die Verfügbarkeit beeinträchtigen

Benachrichtigungen werden nach Erkennung von Schwellenwertüberschreitungen gesendet, auch wenn das durch das Ereignis verursachte Problem automatisch behoben wurde.

Auto Healing sorgt dafür, dass Ihre Workload zuverlässig ist. Allerdings können dadurch auch zugrunde liegende Probleme verschleiert werden, die behoben werden müssen. Implementieren Sie geeignete Überwachungsfunktionen und Ereignisse, damit Sie Problemmuster erkennen können, einschließlich solcher, die durch Auto Healing behoben werden. Auf diese Weise können Sie die Fehlerursachen beheben.

Resiliente Systeme sind so konzipiert, dass Verschlechterungsereignisse sofort an die entsprechenden Teams gemeldet werden. Diese Benachrichtigungen sollten über einen oder mehrere Kommunikationskanäle gesendet werden.

Gewünschtes Ergebnis: Bei Überschreitung von Schwellenwerten wie Fehlerraten, Latenz oder anderen wichtigen Leistungsindikatoren (Key Performance IndicatorKPI) werden sofort Benachrichtigungen an die Betriebsteams gesendet, sodass diese Probleme so schnell wie möglich behoben werden und die Auswirkungen auf die Benutzer vermieden oder minimiert werden.

Typische Anti-Muster:

Es werden zu viele Alarme gesendet.
Es werden Alarme gesendet, die keine Maßnahmen erfordern.
Die Schwellenwerte für den Alarm sind zu hoch (überempfindlich) oder zu niedrig (nicht empfindlich genug).
Es werden keine Alarme für externe Abhängigkeiten gesendet.
Graue Fehler werden bei der Planung von Überwachung und Alarmen nicht berücksichtigt.
Es werden automatische Reparaturen ausgeführt, ohne das entsprechende Team darüber zu benachrichtigen, dass eine Reparatur erforderlich war.

Vorteile der Einführung dieser bewährten Methode: Durch Benachrichtigungen über die Wiederherstellung werden Betriebs- und Geschäftsteams über Serviceeinbußen informiert, sodass sie sofort reagieren können, um sowohl die mittlere Erkennungszeit (MTTD) als auch die durchschnittliche Reparaturzeit (MTTR) zu minimieren. Benachrichtigungen zu Wiederherstellungen stellen sicher, dass Sie selten auftretende Probleme nicht ignorieren.

Risikostufe, wenn diese bewährte Methode nicht eingeführt wird: Mittel. Wenn keine geeigneten Überwachungsfunktionen und Mechanismen zur Benachrichtigung bei Ereignissen implementiert werden, kann dies dazu führen, dass Problemmuster nicht erkannt werden, einschließlich solcher, die durch Auto Healing behoben werden. Ein Team wird nur dann auf eine Verschlechterung des Systems aufmerksam gemacht, wenn Benutzer den Kundendienst kontaktieren oder der Fehler zufällig bemerkt wird.

Implementierungsleitfaden

Bei der Definition einer Überwachungsstrategie ist ein ausgelöster Alarm ein häufiges Ereignis. Dieses Ereignis würde wahrscheinlich eine Kennung für den Alarm enthalten, den Alarmstatus (z. B. IN ALARM oder OK) und Einzelheiten darüber, was ihn ausgelöst hat. In vielen Fällen sollte ein Alarmereignis erkannt und eine E-Mail-Benachrichtigung gesendet werden. Dies ist ein Beispiel für eine Aktion bei einem Alarm. Die Alarmbenachrichtigung ist für die Beobachtbarkeit von entscheidender Bedeutung, da hiermit die richtigen Personen darüber informiert werden, dass ein Problem vorliegt. Wenn die Aktionen bei Ereignissen in Ihrer Lösung für die Beobachtbarkeit ausgereift sind, kann das Problem automatisch behoben werden, ohne dass menschliches Eingreifen erforderlich ist.

Sobald Alarme für die KPI Überwachung eingerichtet wurden, sollten Warnmeldungen an die entsprechenden Teams gesendet werden, wenn die Schwellenwerte überschritten werden. Diese Warnungen können auch verwendet werden, um automatisierte Prozesse auszulösen, die versuchen, die Verschlechterung zu beheben.

Für eine komplexere Schwellenwertüberwachung sollten zusammengesetzte Alarme in Betracht gezogen werden. Kombinierte Alarme verwenden eine Reihe von Alarmen KPI zur Überwachung, um eine Warnung auf der Grundlage der betrieblichen Geschäftslogik zu erstellen. CloudWatchAlarme können so konfiguriert werden, dass sie E-Mails senden oder Vorfälle mithilfe der SNS Amazon-Integration oder Amazon in Incident-Tracking-Systemen von Drittanbietern protokollieren EventBridge.

Implementierungsschritte

Erstellen Sie verschiedene Arten von Alarmen, je nachdem, wie Workloads überwacht werden, z. B.:

Anwendungsalarme werden verwendet, um zu erkennen, wenn ein Teil der Workload nicht ordnungsgemäß funktioniert.
Infrastrukturalarme geben an, wann Ressourcen skaliert werden müssen. Alarme können visuell auf Dashboards angezeigt werden, Benachrichtigungen über Amazon SNS oder E-Mail senden und mithilfe von Auto Scaling Workload-Ressourcen nach innen oder außen skalieren.
Einfache statische Alarme können erstellt werden, um zu überwachen, wann eine Metrik für eine bestimmte Anzahl von Bewertungszeiträumen einen statischen Schwellenwert überschreitet.
Zusammengesetzte Alarme können komplexe Alarme aus mehreren Quellen berücksichtigen.
Nachdem der Alarm erstellt wurde, erstellen Sie entsprechende Benachrichtigungsereignisse. Sie können Amazon direkt aufrufen, um Benachrichtigungen SNS API zu senden und alle Automatisierungen zur Problembehebung oder Kommunikation zu verknüpfen.
Integrieren Sie die Amazon Health Aware-Überwachung, um die Überwachung von AWS Ressourcen zu ermöglichen, bei denen es zu Leistungseinbußen kommen könnte. Für geschäftskritische Workloads bietet diese Lösung Zugriff auf proaktive Benachrichtigungen in Echtzeit für Services. AWS

Ressourcen

Zugehörige bewährte Methoden für Well-Architected:

Definition der Verfügbarkeit

Zugehörige Dokumente:

Zugehörige Tools:

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

REL11-BP05 Verwenden Sie statische Stabilität, um bimodales Verhalten zu verhindern

REL11-BP07 Architektur Ihres Produkts zur Erfüllung von Verfügbarkeitszielen und Uptime-SLAs (Service Level Agreements)