Durchführen einer Analyse nach einem Vorfall im Incident Manager - Incident Manager

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Durchführen einer Analyse nach einem Vorfall im Incident Manager

Die Analyse nach dem Vorfall führt Sie durch die Identifizierung von Verbesserungen bei der Reaktion auf Vorfälle, einschließlich der Zeit bis zur Erkennung und Behebung von Vorfällen. Eine Analyse kann Ihnen auch dabei helfen, die Grundursache der Vorfälle zu verstehen. Incident Manager erstellt Handlungsempfehlungen, um Ihre Reaktion auf Vorfälle zu verbessern.

Vorteile einer Analyse nach dem Vorfall
  • Verbessern Sie die Reaktion auf Ereignisse

  • Verstehen Sie die Ursache des Problems

  • Beheben Sie die Grundursachen mit umsetzbaren Aktionspunkten

  • Analysieren Sie die Auswirkungen von Vorfällen

  • Erfassen Sie Erkenntnisse und teilen Sie sie innerhalb einer Organisation

Wofür sollte eine Analyse nicht verwendet werden

Eine Analyse ist untadelig und nennt Personen nicht beim Namen.

„Unabhängig davon, was wir herausfinden, verstehen wir und glauben fest daran, dass jeder die beste Arbeit geleistet hat, wenn man bedenkt, was er zu dem Zeitpunkt wusste, welche Fähigkeiten und Fähigkeiten er hatte, die verfügbaren Ressourcen und die aktuelle Situation.“ - Norm Kerth, Projektrückblicke: Ein Handbuch zur Überprüfung durch Teams

Einzelheiten der Analyse

Die Seite mit den Analysedetails führt Sie durch das Sammeln von Informationen, die Bewertung von Verbesserungen und die Erstellung von Aktionspunkten. Die Seite mit den Analysedetails ähnelt den Vorfalldetails mit einigen wichtigen Unterschieden wie historischen Kennzahlen, editierbarem Zeitplan und Fragen zur Verbesserung future Vorfälle.

Übersicht

Die Übersicht ist eine Zusammenfassung des Vorfalls. Diese Zusammenfassung enthält Hintergrundinformationen, was passiert ist, warum es passiert ist, wie es gemildert wurde, Dauer und wichtige Maßnahmen, um zu verhindern, dass sich der Vorfall wiederholt. Der Überblick ist auf hohem Niveau. Weitere Einzelheiten finden Sie auf der Registerkarte „Fragen“ der Analyse.

Metriken

Verwenden Sie die Registerkarte „Metriken“, um wichtige Kennzahlen in Ihrer Anwendung über die Dauer des Vorfalls zu visualisieren. Sie können hier Metrikdiagramme hinzufügen, in denen eine oder mehrere Metriken im selben Diagramm dargestellt sind. Metriken, die während eines Vorfalls verwendet wurden, werden auf dieser Registerkarte automatisch eingetragen. Wir empfehlen Ihnen, eine Beschreibung, einen Titel und Anmerkungen zu den wichtigsten Zeitpunkten des Vorfalls hinzuzufügen.

Einige wichtige Zeitpunkte, die Sie bei der Analyse eines Metrikdiagramms berücksichtigen können:

  • Änderung der Bereitstellung

  • Konfigurationsänderung

  • Startzeit des Vorfalls

  • Uhrzeit des Alarms

  • Zeitpunkt der Verlobung

  • Startzeit der Schadensbegrenzung

  • Uhrzeit der Behebung des Vorfalls

Einschränkungen
  • CloudWatch Alarme und metrische Ausdrücke werden nicht aus einem Vorfall importiert.

  • Metriken, die sich in einer Region befinden, die Incident Manager nicht unterstützt, werden nicht aus dem Incident importiert.

  • Metriken in Anwendungskonten müssen CloudWatch-CrossAccountSharingRole vor der Erstellung der Analyse konfiguriert werden. Weitere Informationen zur Rolle finden Sie im CloudWatch Benutzerhandbuch unter Accountübergreifende CloudWatch Cross-Region-Konsole.

Zeitplan

Beschreiben Sie die wichtigsten Zeitpunkte auf der Zeitleiste, während Sie sich eingehender mit dem Vorfall befassen. Die Zeitleiste der Vorfälle wird auf dieser Registerkarte automatisch ausgefüllt. Sie können Zeitpunkte löschen, die für die Analyse nicht relevant sind. Sie können auch Zeitpunkte hinzufügen und bearbeiten, um den Vorfall und seine Auswirkungen genauer zu beschreiben.

Verwenden Sie die Registerkarte Zeitleiste, um Fragen zu beantworten, die Sie auf der Registerkarte Fragen zur Reaktion auf den Vorfall finden.

Fragen

Verwenden Sie Incident Manager-Fragen, um die Zeit bis zur Behebung von Vorfällen in Ihrer Anwendung zu verkürzen und das Auftreten von Vorfällen zu reduzieren. Aktualisieren Sie bei der Beantwortung der Fragen die Registerkarten Metriken und Zeitleiste, um die Genauigkeit zu erhöhen. Die Fragen konzentrieren sich auf die folgenden Hauptaspekte der Reaktion auf Vorfälle:

  • Erkennung — Könnten Sie die Zeit bis zur Erkennung verkürzen? Gibt es Aktualisierungen von Metriken und Alarmen, durch die der Vorfall früher erkannt würde?

  • Diagnose — Können Sie die Zeit bis zur Diagnose verkürzen? Gibt es Aktualisierungen Ihrer Reaktions- oder Eskalationspläne, mit denen die richtigen Notfallteams früher eingeschaltet werden könnten?

  • Schadensbegrenzung — Können Sie die Zeit bis zur Schadensbegrenzung verkürzen? Gibt es Runbook-Schritte, die Sie hinzufügen oder verbessern könnten?

  • Prävention — Können Sie verhindern, dass sich future Vorfälle ereignen? Um die Hauptursachen eines Vorfalls zu ermitteln, verwendet Amazon bei der Problemuntersuchung den 5-Whys-Ansatz.

Aktionen

Incident Manager erstellt Handlungsempfehlungen, die Sie beim Ausfüllen der Fragen überprüfen können. Auf dieser Registerkarte können Sie wählen, ob Sie diese Aktionen akzeptieren und abschließen möchten, oder Sie können sie ablehnen. Sie können abgelehnte Aktionspunkte überprüfen, indem Sie Abgelehnte Aktionspunkte wählen. Bei Aktionspunkten handelt es sich um einen Typ OpsItem , der mit der Analyse und dem Vorfall in verknüpft ist OpsCenter.

Checkliste

Bevor Sie eine Analyse abschließen, überprüfen Sie anhand der Checkliste die Maßnahmen, die ein Befragter ergreifen sollte. Wenn Responder Aktionen in der Checkliste abschließen, ändert sich das Symbol neben der Aktion von einer Ellipse in ein Häkchen, was darauf hinweist, dass die Aktion abgeschlossen ist. Wenn Sie die Elemente der Checkliste noch nicht abgeschlossen haben, zeigt Incident Manager eine Meldung an, um zu bestätigen, dass der Responder die Analyse beenden möchte, ohne sie abzuschließen.

Vorlagen für Analysen

Eine Analysevorlage enthält eine Reihe von Fragen, die sich eingehend mit der Grundursache von Vorfällen befassen. Sie können Ihre Antworten auf diese Fragen verwenden, um die Anwendungsleistung und die Reaktion auf Vorfälle zu verbessern.

AWS Standardvorlage

Incident Manager bietet eine Standardvorlage mit Fragen, die auf bewährten Verfahren zur Reaktion auf AWS Vorfälle und Problemanalyse basieren, mit dem TitelAWSIncidents-PostIncidentAnalysisTemplate.

Erstellen Sie eine Analysevorlage

Wir empfehlen Ihnen, die AWSIncidents-PostIncidentAnalysisTemplate Standardvorlage zu verwenden und zusätzliche Fragen oder Abschnitte hinzuzufügen, die für Ihre Anwendungsfälle geeignet sind. Erstellen Sie Analysevorlagen auf der Grundlage der Standardvorlage Verwenden Sie diese Vorlage als Ausgangspunkt für die Erstellung von Analysevorlagen in Ihrem Verwaltungskonto. Anschließend können Sie Ihre Analysevorlagen in jeder Region duplizieren, in der Sie Incident Manager aktiviert haben.

Erstellen Sie eine Analysevorlage
  1. Rufen Sie die GetDocument Aktion auf und verwenden Sie ihren Name Parameter zum HerunterladenAWSIncidents-PostIncidentAnalysisTemplate. Weitere Informationen zur GetDocument Syntax finden Sie unter Systems Manager API Reference.

  2. Der Inhalt der Antwort enthält die JSON-Bausteine für die Analyse. Verwenden Sie die Fragebausteine, um zusätzliche Fragen in die Analyse einzufügen. Wir empfehlen, dass Sie dem Incident questions Abschnitt Fragen oder Abschnitte hinzufügen.

  3. Um die neue Vorlage zu erstellen, verwenden Sie den CreateDocument Vorgang mit dem aktualisierten JSON aus dem vorherigen Schritt. Sie müssen Folgendes angeben, wo Analysis_Template_Name ist der Name Ihrer Vorlage,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Erstellen Sie eine Analyse

  1. Um eine Analyse zu erstellen, wählen Sie auf der Seite mit den Vorfalldetails eines abgeschlossenen Vorfalls die Option Analyse erstellen aus.

  2. Wählen Sie die Analysevorlage aus, aus der diese Analyse erstellt werden soll, und geben Sie einen aussagekräftigen Namen für die Analyse ein.

  3. Wählen Sie Create (Erstellen) aus.

Sie können eine Kopie einer vollständigen oder unvollständigen Analyse erstellen, die für den Druck formatiert ist. Sie können diese Kopie auch als PDF speichern. Sie können jeweils eine Analyse ausdrucken. Das Batch-Drucken mehrerer Analysen wird derzeit nicht unterstützt.

Um eine formatierte Analyse zu drucken
  1. Öffnen Sie die Incident Manager-Konsole.

  2. Wählen Sie die Registerkarte Analyse.

  3. Wählen Sie den Titel der Analyse, die Sie drucken möchten.

  4. Wählen Sie in der oberen rechten Ecke der Analysedetailseite die Option Drucken aus.

  5. Löschen Sie im Dialogfeld „Vorfallanalyse drucken“ die Abschnitte der Analyse, die nicht in der gedruckten Version enthalten sein sollen. Standardmäßig sind alle Abschnitte ausgewählt.

  6. Wählen Sie Drucken, um die lokalen Drucksteuerungen für Ihr Gerät zu öffnen.

  7. Wählen Sie Ihr Druckziel oder Ihr Druckformat. Sie können einen lokalen Drucker oder einen Netzwerkdrucker wählen oder die Analyse als PDF speichern. Nehmen Sie bei Bedarf Änderungen an den übrigen Druckoptionen vor, und wählen Sie dann Drucken.

    Anmerkung

    Local Print Controls bezieht sich auf die Benutzeroberfläche, die von Ihrem Webbrowser und Gerät bereitgestellt wird.

    Druckziele sind diejenigen, die für Ihr Gerät konfiguriert sind und von dort aus zugänglich sind.