OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch - Säule „Betriebliche Exzellenz“

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

OPS11-BP02 Führen Sie eine Analyse nach dem Vorfall durch

Überprüfen Sie die Ereignisse mit Auswirkungen auf Kunden und bestimmen Sie die beitragenden Faktoren und Präventivmaßnahmen. Entwickeln Sie anhand dieser Informationen Abhilfemaßnahmen, um Wiederholungen einzuschränken oder zu verhindern. Entwickeln Sie Verfahren für schnelle und effektive Reaktionen. Informieren Sie nach Bedarf auf zielgruppengerechte Weise über beitragende Faktoren und Korrekturmaßnahmen.

Gewünschtes Ergebnis:

  • Sie haben Prozesse für das Vorfallmanagement eingerichtet, die auch Analysen nach dem Vorfall beinhalten.

  • Sie verfügen über Pläne zur Beobachtbarkeit, um Daten über Ereignisse zu sammeln.

  • Anhand dieser Daten können Sie Metriken verstehen und erfassen, die Sie bei der Analyse nach einem Vorfall unterstützen.

  • Sie lernen aus Vorfällen, um zukünftige Ergebnisse zu verbessern.

Typische Anti-Muster:

  • Sie verwalten einen Anwendungsserver. Ungefähr alle 23 Stunden und 55 Minuten werden alle Ihre aktiven Sitzungen beendet. Sie haben versucht, festzustellen, wo der Fehler auf Ihrem Anwendungsserver liegt. Sie vermuten, dass es sich um ein Netzwerkproblem handeln könnte, das Netzwerkteam zeigt sich jedoch unkooperativ, da es für Ihr Anliegen zu beschäftigt ist. Sie haben keinen vordefinierten Prozess, den Sie befolgen könnten, um Support zu erhalten und die nötigen Informationen zu sammeln, um dem Problem auf den Grund zu gehen.

  • Bei Ihrer Workload kam es zu Datenverlust. Dies ist das erste Mal, dass dieses Problem aufgetreten ist, und die Ursache ist nicht klar. Sie entscheiden, dass es nicht wichtig ist, da Sie die Daten wiederherstellen können. Datenverluste beginnen mit größerer Häufigkeit aufzutreten und wirken sich auf Ihre Kunden aus. Dadurch steigt auch der betriebliche Aufwand, wenn Sie die fehlenden Daten wiederherstellen.

Vorteile der Nutzung dieser bewährten Methode:

  • Durch vordefinierte Prozesse zur Bestimmung der Komponenten, Bedingungen, Maßnahmen und Ereignisse, die zu einem Vorfall beigetragen haben, können Sie Verbesserungsmöglichkeiten ermitteln.

  • Sie können Daten aus der Analyse nach einem Vorfall nutzen, um Verbesserungen vorzunehmen.

Risikostufe bei fehlender Befolgung dieser bewährten Methode: Hoch

Implementierungsleitfaden

Verwenden Sie einen Prozess zur Ermittlung der Faktoren, die dazu beitragen. Überprüfen Sie alle Vorfälle, die sich auf Kunden auswirken. Erarbeiten Sie ein Verfahren, um die beitragenden Faktoren eines Vorfalls zu ermitteln und zu dokumentieren. Damit können Sie Abhilfemaßnahmen entwickeln, um ein erneutes Auftreten einzudämmen oder gänzlich zu verhindern, und Verfahren für eine rasche und wirksame Reaktion erstellen. Informieren Sie gegebenenfalls über die Ursachen von Vorfällen und passen Sie die Kommunikation an Ihre Zielgruppe an. Teilen Sie Ihre Erkenntnisse offen innerhalb Ihrer Organisation mit.

Implementierungsschritte

  1. Erfassen Sie Metriken wie Bereitstellungsänderungen, Konfigurationsänderungen, Startzeit des Vorfalls, Zeitpunkt des Alarms, Zeitpunkt des Einsatzes, Startzeit der Schadensbegrenzung und Zeitpunkt der Behebung des Vorfalls.

  2. Beschreiben Sie wichtige Zeitpunkte auf der Zeitleiste, um die Ereignisse des Vorfalls zu verstehen.

  3. Stellen Sie die folgenden Fragen:

    1. Könnten Sie die Zeit bis zur Erkennung verkürzen?

    2. Gibt es Aktualisierungen von Metriken und Alarmen, durch die der Vorfall früher erkannt würde?

    3. Können Sie die Zeit bis zur Diagnose verkürzen?

    4. Gibt es Aktualisierungen Ihrer Reaktions- oder Eskalationspläne, mit denen die richtigen Notfallteams früher eingeschaltet werden könnten?

    5. Können Sie die Zeit bis zur Schadensbegrenzung verkürzen?

    6. Gibt es Runbook- oder Playbook-Schritte, die Sie hinzufügen oder verbessern könnten?

    7. Können Sie zukünftige Vorfälle verhindern?

  4. Erstellen Sie Checklisten und Aktionen. Verfolgen und führen Sie alle Aktionen durch.

Aufwand für den Implementierungsplan: Mittel

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente: