Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
REL06-BP04 Automatisierte Antworten (Verarbeitung und Alarmierung in Echtzeit)
Automatisieren Sie bei Erkennung von Ereignissen die erforderlichen Maßnahmen, wie etwa den Austausch fehlerhafter Komponenten.
Die automatische Echtzeitverarbeitung von Alarmen ist implementiert, sodass die Systeme bei Auslösung von Alarmen schnell korrigierend eingreifen und versuchen können, Ausfälle oder Beeinträchtigungen des Services zu verhindern. Zu den automatisierten Reaktionen auf Alarme könnten der Austausch ausgefallener Komponenten, die Anpassung der Rechenkapazität, die Umleitung des Datenverkehrs auf fehlerfreie Hosts, Availability Zones oder andere Regionen sowie die Benachrichtigung der Betreiber gehören.
Gewünschtes Ergebnis: Alarme werden in Echtzeit erkannt, und die automatische Verarbeitung von Alarmen wird eingerichtet, um die entsprechenden Maßnahmen zur Einhaltung der Servicelevel-Ziele und Service-Level-Agreements einzuleiten (). SLAs Die Automatisierung kann von der Selbstreparatur einzelner Komponenten bis hin zum Failover eines ganzen Standorts reichen.
Typische Anti-Muster:
-
Fehlen einer genauen Bestandsaufnahme oder eines Katalogs der wichtigsten Echtzeitalarme
-
Keine automatischen Reaktionen auf kritische Alarme (z. B. automatische Skalierung, wenn die Rechenkapazität fast erschöpft ist)
-
Widersprüchliche Alarmreaktionen
-
Es gibt keine Standardarbeitsanweisungen (SOPs), die Bediener befolgen müssen, wenn sie Warnmeldungen erhalten.
-
Keine Überwachung von Konfigurationsänderungen, da unentdeckte Konfigurationsänderungen zu Ausfallzeiten bei Workloads führen können
-
Keine Strategie, um unbeabsichtigte Konfigurationsänderungen rückgängig zu machen
Vorteile der Nutzung dieser bewährten Methode: Die Automatisierung der Alarmverarbeitung kann die Ausfallsicherheit des Systems verbessern. Das System ergreift automatisch Korrekturmaßnahmen und reduziert so manuelle Tätigkeiten, bei denen es zu einem menschlichen, fehleranfälligen Eingreifen kommen kann. Der Workload-Betrieb erfüllt die Verfügbarkeitsziele und reduziert Serviceunterbrechungen.
Risikostufe bei fehlender Befolgung dieser bewährten Methode: Mittel
Implementierungsleitfaden
Zur wirksamen Verwaltung von Alarmen und zur Automatisierung ihrer Beantwortung kategorisieren Sie die Alarme nach ihrer Kritikalität und Auswirkung, dokumentieren die Reaktionsverfahren und planen die Reaktionen, bevor Sie die Aufgaben einordnen.
Ermitteln Sie Aufgaben, die bestimmte Aktionen erfordern (oft in Runbooks detailliert beschrieben), und untersuchen Sie alle Runbooks und Playbooks, um festzustellen, welche Aufgaben automatisiert werden können. Lassen sich Aktionen definieren, können sie oft auch automatisiert werden. Wenn Aktionen nicht automatisiert werden können, dokumentieren Sie die manuellen Schritte in einer SOP und schulen Sie die Bediener darin. Hinterfragen Sie kontinuierlich manuelle Prozesse und suchen Sie nach Möglichkeiten zur Automatisierung, um einen Plan für die Automatisierung von Alarmreaktionen zu erstellen und zu verwalten.
Implementierungsschritte
-
Erstellen Sie ein Inventar von Alarmen: Um eine Liste aller Alarme zu erhalten, können Sie den CloudWatch Befehl Amazon verwenden
describe-alarms
. AWS CLIJe nachdem, wie viele Alarme Sie eingerichtet haben, müssen Sie möglicherweise die Paginierung verwenden, um eine Teilmenge von Alarmen für jeden Anruf abzurufen, oder Sie können den verwenden, AWS SDK um die Alarme mithilfe eines API Anrufs abzurufen. -
Dokumentieren aller Alarmaktionen: Aktualisieren Sie ein Runbook mit allen Alarmen und ihren Aktionen, unabhängig davon, ob sie manuell oder automatisiert sind. AWS Systems Manager bietet vordefinierte Runbooks. Ausführliche Informationen zum Anzeigen von Runbook-Inhalten finden Sie unter Working with runbooks. Ausführliche Informationen zum Anzeigen von Runbook-Inhalten finden Sie unter View runbook content.
-
Alarmaktionen einrichten und verwalten: Geben Sie für alle Alarme, für die eine Aktion erforderlich ist, die automatisierte Aktion mithilfe von an. CloudWatch SDK Sie können beispielsweise den Status Ihrer EC2 Amazon-Instances auf der Grundlage eines CloudWatch Alarms automatisch ändern, indem Sie Aktionen für einen Alarm erstellen und aktivieren oder Aktionen für einen Alarm deaktivieren.
Sie können Amazon
auch verwenden EventBridge, um automatisch auf Systemereignisse wie Probleme mit der Anwendungsverfügbarkeit oder Ressourcenänderungen zu reagieren. Sie können Regeln erstellen, um anzugeben, an welchen Ereignissen Sie interessiert sind, und welche Aktionen auszuführen sind, wenn ein Ereignis mit einer Regel übereinstimmt. Zu den Aktionen, die automatisch initiiert werden können, gehören das Aufrufen einer AWS Lambda Funktion, das Aufrufen von Amazon EC2 Run Command
, das Weiterleiten des Ereignisses an Amazon Kinesis Data Streamsund die Verwendung von Automate Amazon. EC2 EventBridge -
Standardarbeitsanweisungen (SOPs): Basierend auf Ihren Anwendungskomponenten empfiehlt es sich, AWS Resilience Hubmehrere Vorlagen zu verwenden. SOP Sie können diese verwendenSOPs, um alle Prozesse zu dokumentieren, die ein Bediener befolgen sollte, falls eine Warnung ausgelöst wird. Sie können auch eine auf Resilience Hub-Empfehlungen SOP basierende Analyse erstellen, für die Sie eine Resilience Hub-Anwendung mit einer zugehörigen Resilienz-Richtlinie sowie eine historische Resilienzbewertung für diese Anwendung benötigen. Die Empfehlungen für Sie ergeben SOP sich aus der Resilienzbewertung.
Resilience Hub arbeitet mit Systems Manager zusammen, um Ihre Schritte zu automatisieren, SOPs indem es eine Reihe von SSMDokumenten bereitstellt, die Sie als Grundlage für diese verwenden könnenSOPs. Resilience Hub kann beispielsweise eine Empfehlung SOP für das Hinzufügen von Speicherplatz auf der Grundlage eines vorhandenen SSM Automatisierungsdokuments empfehlen.
-
Führen Sie automatisierte Aktionen mit Amazon DevOps Guru durch: Sie können Amazon DevOps Guru
verwenden, um Anwendungsressourcen automatisch auf ungewöhnliches Verhalten zu überwachen und gezielte Empfehlungen zu geben, um die Problemerkennung und -behebung zu beschleunigen. Mit DevOps Guru können Sie Ströme von Betriebsdaten nahezu in Echtzeit aus verschiedenen Quellen überwachen, darunter CloudWatch Amazon-Metriken AWS Config , AWS CloudFormation , und AWS X-Ray . Sie können DevOps Guru auch verwenden, um Ereignisse automatisch zu erstellen OpsCenter und OpsItemsan diese zu senden, EventBridge um sie weiter zu automatisieren.
Ressourcen
Zugehörige bewährte Methoden:
Zugehörige Dokumente:
Zugehörige Videos:
-
AWS re:Invent 2022 — Bewährte Methoden zur Beobachtbarkeit bei Amazon
-
AWS re:Invent 2020: Automatisieren Sie alles mit AWS Systems Manager
-
Erstellen Sie benutzerdefinierte Ticketsysteme für Amazon DevOps Guru-Benachrichtigungen
-
Aktivieren Sie die Aggregation von Erkenntnissen für mehrere Konten mit Amazon Guru DevOps
Zugehörige Beispiele: