Durchführung einer Analyse nach einem Vorfall im Incident-Manager - Incident Manager

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Durchführung einer Analyse nach einem Vorfall im Incident-Manager

Die Post-Incident-Analyse führt Sie durch die Identifizierung von Verbesserungen Ihrer Reaktion auf Vorfälle und führt Sie durch die Identifizierung von Verbesserungen Ihrer Reaktion auf Vorfälle. Eine Analyse kann Ihnen auch helfen, die Grundursache der Vorfälle zu verstehen. Incident Manager erstellt Handlungsempfehlungen, um Ihre Reaktion auf Vorfälle zu verbessern.

Vorteile einer Analyse nach einem Vorfall
  • Verbesserung der Reaktion auf Vorfälle

  • Verstehen Sie die Grundursache des Problems

  • Behandeln Sie die Grundursachen mit umsetzbaren Maßnahmen

  • Analysieren Sie die Auswirkungen von Vorfällen

  • Erfassen und teilen Sie Erkenntnisse innerhalb einer Organisation

Wofür Sie eine Analyse nicht verwenden sollten

Eine Analyse ist tadellos und nennt die Leute nicht beim Namen.

„Unabhängig davon, was wir herausfinden, verstehen wir und sind fest davon überzeugt, dass jeder die bestmögliche Arbeit geleistet hat, wenn man bedenkt, was er zu diesem Zeitpunkt wusste, seine Fähigkeiten und Fertigkeiten, die verfügbaren Ressourcen und die aktuelle Situation.“ - Norm Kerth, Projektrückblicke: Ein Handbuch zur Teamüberprüfung

Details zur Analyse

Die Seite mit den Analysedetails führt Sie durch das Sammeln von Informationen, die Bewertung von Verbesserungen und die Erstellung von Aktionspunkten. Die Seite mit den Analysedetails ähnelt den Vorfalldetails, weist jedoch einige wichtige Unterschiede auf, z. B. historische Kennzahlen, einen editierbaren Zeitplan und Fragen zur Verbesserung future Vorfälle.

Übersicht

Die Übersicht ist eine Zusammenfassung des Vorfalls. Diese Zusammenfassung enthält Hintergrundinformationen, was passiert ist, warum es passiert ist, wie es gemildert wurde, wie es dauert und wichtige Maßnahmen, um zu verhindern, dass sich der Vorfall erneut ereignet. Die Übersicht ist auf hohem Niveau. Weitere Informationen finden Sie auf der Registerkarte „Fragen“ der Analyse.

Metriken

Verwenden Sie die Registerkarte „Metriken“, um wichtige Kennzahlen in Ihrer Anwendung über die Dauer des Vorfalls zu visualisieren. Sie können hier metrische Grafiken hinzufügen, bei denen eine oder mehrere Metriken in derselben Grafik dargestellt sind. Metriken, die während eines Vorfalls verwendet wurden, werden auf dieser Registerkarte automatisch eingetragen. Wir empfehlen Ihnen, eine Beschreibung, einen Titel und Anmerkungen zu wichtigen Zeitpunkten während des Vorfalls hinzuzufügen.

Einige wichtige Zeitpunkte, die Sie bei der Analyse eines metrischen Diagramms berücksichtigen können:

  • Änderung des Einsatzes

  • Konfigurationsänderung

  • Startzeit des Ereignisses

  • Uhrzeit des Weckers

  • Zeitpunkt des Engagements

  • Startzeit des Ereignisses

  • Zeit zur Behebung des Vorfalls

Einschränkungen
  • CloudWatch Alarme und metrische Ausdrücke werden nicht aus einem Vorfall importiert.

  • Metriken, die sich in einer Region befinden, die Incident Manager nicht unterstützt, werden nicht aus dem Incident importiert.

  • Metriken in Anwendungskonten müssenCloudWatch-CrossAccountSharingRole vor der Erstellung der Analyse konfiguriert werden. Weitere Informationen zur Rolle finden Sie unter Account CloudWatch Cross-Region-Konsole im CloudWatch Benutzerhandbuch.

Zeitplan

Beschreiben Sie wichtige Zeitpunkte auf der Zeitleiste, während Sie sich eingehender mit dem Verständnis des Vorfalls befassen. Die Zeitleiste der Vorfälle wird automatisch auf dieser Registerkarte aufgefüllt. Sie können Zeitpunkte löschen, die für die Analyse nicht relevant sind. Sie können auch Zeitpunkte hinzufügen und bearbeiten, um den Vorfall und seine Auswirkungen genauer zu beschreiben.

Verwenden Sie die Registerkarte „Zeitleiste“, um Fragen zu beantworten, die Sie auf der Registerkarte „Fragen“ zur Reaktion auf den Vorfall finden.

Fragen

Verwenden Sie Incident Manager-Fragen, um die Zeit bis zur Behebung von Vorfällen in Ihrer Anwendung zu verkürzen und das Auftreten von Vorfällen zu reduzieren. Aktualisieren Sie bei der Beantwortung von Fragen die Tabs „Metriken“ und „Zeitleiste“, um die Genauigkeit zu gewährleisten. Die Fragen konzentrieren sich auf diese Schlüsselaspekte der Reaktion auf Vorfälle:

  • Erkennung — Könnten Sie die Zeit bis zur Erkennung verkürzen? Gibt es Aktualisierungen der Kennzahlen und Alarme, mit denen der Vorfall früher erkannt werden könnte?

  • Diagnose — Können Sie die Zeit bis zur Diagnose verkürzen? Gibt es Aktualisierungen Ihrer Reaktionspläne oder Eskalationspläne, durch die die richtigen Ansprechpartner früher eingebunden werden könnten?

  • Schadensbegrenzung — Können Sie die Zeit bis zur Schadensbegrenzung verkürzen? Gibt es Runbook-Schritte, die Sie hinzufügen oder verbessern könnten?

  • Prävention — Können Sie future Vorfälle verhindern? Um die Grundursachen eines Vorfalls zu ermitteln, verwendet Amazon bei der Problemuntersuchung den 5-Whys-Ansatz.

Aktionen

Incident Manager erstellt Handlungsempfehlungen, die Sie beim Beantworten der Fragen überprüfen können. Auf dieser Registerkarte können Sie wählen, ob Sie diese Aktionen akzeptieren und abschließen möchten, oder Sie können sie ablehnen. Sie können abgewiesene Aktionspunkte überprüfen, indem Sie Abgelehnte Aktionspunkte wählen. Bei Aktionspunkten handelt es sich um eine Art von Maßnahmen OpsItem , die mit der Analyse und dem Vorfall in verknüpft sind OpsCenter.

Checkliste

Bevor Sie eine Analyse abschließen, überprüfen Sie anhand der Checkliste, welche Maßnahmen ein Responder ergreifen sollte. Wenn die Responder Aktionen in der Checkliste abgeschlossen haben, ändert sich das Symbol neben der Aktion von einer Ellipse in ein Häkchen, was darauf hinweist, dass die Aktion abgeschlossen ist. Wenn Sie die Checklistenelemente nicht abgeschlossen haben, zeigt Incident Manager eine Meldung an, um zu bestätigen, dass der Responder die Analyse abschließen möchte, ohne sie abzuschließen.

Analyseschemas

Eine Analysevorlage enthält eine Reihe von Fragen, die sich eingehend mit der Grundursache von Vorfällen befassen. Sie können Ihre Antworten auf diese Fragen verwenden, um die Anwendungsleistung und die Reaktion auf Vorfälle zu verbessern.

AWSStandardvorlage

Incident Manager bietet eine Standardvorlage für Fragen, die auf bewährten Methoden zur Reaktion aufAWS Vorfälle und zur Problemanalyse basieren, mit dem TitelAWSIncidents-PostIncidentAnalysisTemplate.

Erstellen einer Analysevorlage

Wir empfehlen Ihnen, dieAWSIncidents-PostIncidentAnalysisTemplate Standardvorlage zu verwenden und zusätzliche Fragen oder Abschnitte hinzuzufügen, die für Ihre Anwendungsfälle geeignet sind. Erstellen Sie Analysevorlagen auf der Grundlage der Standardvorlage Verwenden Sie diese Vorlage als Ausgangspunkt, um Analysevorlagen in Ihrem Verwaltungskonto zu erstellen. Anschließend können Sie Ihre Analysevorlagen für jede Region duplizieren, in der Sie Incident Manager aktiviert haben.

Erstellen einer Analysevorlage
  1. Rufen Sie dieGetDocument Aktion auf und verwenden Sie ihrenName Parameter zum HerunterladenAWSIncidents-PostIncidentAnalysisTemplate. Weitere Informationen zurGetDocument Syntax finden Sie unter Systems Manager Manager-API-Referenz.

  2. Der Inhalt der Antwort enthält die JSON-Bausteine für die Analyse. Verwenden Sie die Fragenbausteine, um zusätzliche Fragen in die Analyse einzufügen. Wir empfehlen Ihnen, demIncident questions Abschnitt Fragen oder Abschnitte hinzuzufügen.

  3. Verwenden Sie zum Erstellen der neuen Vorlage denCreateDocument Vorgang mit dem aktualisierten JSON aus dem vorherigen Schritt. Sie müssen Folgendes angeben, wo der Name Ihrer VorlageAnalysis_Template_Name ist,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Erstellen einer Analyse

  1. Um eine Analyse zu erstellen, wählen Sie auf der Seite mit den Incident-Details eines abgeschlossenen Incidents die Option Analyse erstellen aus.

  2. Wählen Sie die Analysevorlage aus, aus der diese Analyse erstellt werden soll, und geben Sie einen beschreibenden Namen für die Analyse ein.

  3. Wählen Sie Create (Erstellen) aus.

Sie können eine Kopie einer vollständigen oder unvollständigen Analyse erstellen, die für den Druck formatiert ist. Sie können diese Kopie auch als PDF speichern. Sie können eine Analyse nach der anderen drucken. Batch-Drucken von mehreren Analysen wird derzeit nicht unterstützt.

Um eine formatierte Analyse zu drucken
  1. Öffnen Sie die Incident Manager-Konsole.

  2. Wählen Sie die Registerkarte Analyse.

  3. Wählen Sie den Titel der Analyse, die Sie drucken möchten.

  4. Wählen Sie im Feld oben rechts auf der Seite mit den Analysedetails auf Drucken.

  5. Löschen Sie im Dialogfeld Vorfallanalyse drucken die Abschnitte der Analyse, die nicht in der gedruckten Version enthalten sein sollen. Standardmäßig sind alle Abschnitte ausgewählt.

  6. Wählen Sie Drucken, um die lokalen Drucksteuerungen für Ihr Gerät zu öffnen.

  7. Wählen Sie Ihr Druckziel oder Format. Sie können einen lokalen Drucker oder einen Netzwerkdrucker auswählen, oder Sie können die Analyse als PDF speichern. Nehmen Sie, falls gewünscht, Änderungen an den verbleibenden Druckoptionen vor, und wählen Sie dann Drucken.

    Anmerkung

    Local Print Controls bezieht sich auf die Benutzeroberfläche, die von Ihrem Webbrowser und Gerät bereitgestellt wird.

    Druckziele sind diejenigen, die für Ihr Gerät konfiguriert sind und auf die von Ihrem Gerät aus zugegriffen werden kann.