Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response - AWSBenutzerleitfaden zur Erkennung und Reaktion auf Vorfälle

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response

Auf dieser Seite finden Sie die Fragebögen, die Sie ausfüllen müssen, wenn Sie einen Workload in AWS Incident Detection and Response integrieren und wenn Sie Alarme für die Aufnahme in den Service konfigurieren. Der Fragebogen zum Onboarding von Workloads enthält allgemeine Informationen über Ihren Workload, dessen Architekturdetails und Ansprechpartner für die Reaktion auf Vorfälle. Im Fragebogen zur Erfassung von Alarmen geben Sie in Incident Detection and Response für Ihren Workload die kritischen Alarme an, die zur Entstehung von Vorfällen führen sollen. Außerdem geben Sie Runbook-Informationen darüber an, wer kontaktiert werden soll und welche Maßnahmen ergriffen werden sollten. Das korrekte Ausfüllen dieser Fragebögen ist ein wichtiger Schritt bei der Einrichtung von Überwachungs- und Reaktionsprozessen für Ihre Workloads. AWS

Laden Sie den Fragebogen zum Onboarding von Workloads herunter.

Laden Sie den Fragebogen zur Erfassung von Alarmen herunter.

Fragebogen zum Onboarding zum Workload — Allgemeine Fragen

Allgemeine Fragen
Frage Beispielantwort
Name des Unternehmens

Amazon Inc.

Name dieses Workloads (einschließlich aller Abkürzungen)

Amazon-Einzelhandelsgeschäfte (ARO)

Primärer Endbenutzer und die Funktion dieses Workloads.

Bei diesem Workload handelt es sich um eine E-Commerce-Anwendung, die es Endbenutzern ermöglicht, verschiedene Artikel zu kaufen. Dieser Workload ist der Hauptumsatzgenerator für unser Unternehmen.

Geltende Compliance- und/oder behördliche Anforderungen für diese Arbeitslast und alle Maßnahmen, die AWS nach einem Vorfall erforderlich sind.

Der Arbeitsaufwand bezieht sich auf Patientenakten, die sicher und vertraulich aufbewahrt werden müssen.

Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur

Fragen zur Architektur
Frage Beispielantwort

Eine Liste von AWS Ressourcen-Tags, die zur Definition von Ressourcen verwendet werden, die Teil dieser Arbeitslast sind. AWS verwendet diese Tags, um die Ressourcen dieses Workloads zu identifizieren, um den Support bei Vorfällen zu beschleunigen.

Anmerkung

Bei Tags muss die Groß- und Kleinschreibung beachtet werden. Wenn Sie mehrere Tags angeben, müssen alle von diesem Workload verwendeten Ressourcen dieselben Tags haben.

appName: Optimax

Umgebung: Produktion

Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden.

Anmerkung

Erstellen Sie für jeden Dienst eine neue Zeile.

Route 53: Leitet den Internetverkehr an die weiterALB.

Konto: 123456789101

Region: US-1, US-2 EAST WEST

Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden.

Anmerkung

Erstellen Sie für jeden Dienst eine neue Zeile.

ALB: Leitet eingehenden Traffic an eine Zielgruppe von ECS Containern weiter.

Konto: 123456789101

Region: N/A

Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden.

Anmerkung

Erstellen Sie für jeden Dienst eine neue Zeile.

ECS: Recheninfrastruktur für die Hauptflotte der Geschäftslogik. Verantwortlich für die Bearbeitung eingehender Benutzeranfragen und für Abfragen an die Persistenzschicht.

Konto: 123456789101

Region: US-1 EAST

Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden.

Anmerkung

Erstellen Sie für jeden Dienst eine neue Zeile.

RDS: Der Amazon Aurora Aurora-Cluster speichert Benutzerdaten, auf die über die ECS Geschäftslogikschicht zugegriffen wird.

Konto: 123456789101

Region: US-1 EAST

Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden.

Anmerkung

Erstellen Sie für jeden Dienst eine neue Zeile.

S3: Speichert statische Inhalte der Website.

Konto: 123456789101

Region: N/A

Geben Sie alle Upstream-/Downstream-Komponenten an, die nicht integriert wurden und die sich bei einem Ausfall auf diese Arbeitslast auswirken könnten. Authentifizierungs-Microservice: Verhindert, dass Benutzer ihre Gesundheitsdaten laden, da diese nicht authentifiziert werden.
Gibt es On-Premise-Komponenten oder AWS Komponenten für diesen Workload? Falls ja, was sind sie und welche Funktionen werden ausgeführt? Der gesamte ein-/ausgehende internetbasierte Datenverkehr AWS wird über unseren lokalen Proxy-Service geleitet.
Geben Sie Einzelheiten zu allen manuellen oder automatisierten Failover-/Disaster-Recovery-Plänen auf Availability Zone- und regionaler Ebene an. Warmer Bereitschaftsmodus. Automatischer Failover auf WEST US-2 bei anhaltendem Rückgang der Erfolgsquote.

Fragebogen zum Onboarding von Workloads — Fragen zum AWS Service Event

AWS Fragen zu Serviceereignissen
Frage Beispielantwort
Geben Sie die Kontaktdaten (Name/E-Mail/Telefon) des internen Teams für schwere Vorfälle/IT-Krisenmanagement Ihres Unternehmens an.

Team für das Management schwerer Vorfälle

mim@example.com

+61 2 3456 7890

Geben Sie Einzelheiten zu jeder statischen Brücke zwischen Vorfällen und Krisenmanagement an, die von Ihrem Unternehmen eingerichtet wurden. Wenn Sie nichtstatische Brücken verwenden, geben Sie Ihre bevorzugte Anwendung an und AWS wir fordern diese Informationen bei einem Vorfall an.

Anmerkung

Wenn keine bereitgestellt wird, wird sich während eines Vorfalls mit AWS Ihnen in Verbindung setzen und Ihnen eine Chime-Bridge zur Verfügung stellen, an der Sie teilnehmen können.

Amazon Chime

https://chime.aws/1234567890

Fragebogen zur Erfassung von Alarmen

Runbook-Fragen
Frage Beispielantwort

AWS wird im Rahmen des AWS Support Falls Ansprechpartner für die Arbeitslast ansprechen. Wer ist der Hauptansprechpartner, wenn ein Alarm für diese Arbeitslast ausgelöst wird?

Geben Sie Ihre bevorzugte Konferenzanwendung an und AWS wir werden Sie bei einem Vorfall nach diesen Informationen fragen.

Anmerkung

Wenn keine bevorzugte Konferenzanwendung zur Verfügung gestellt wird, AWS wird sie sich während eines Vorfalls mit einer Chime-Bridge in Verbindung setzen, an der Sie teilnehmen können.

Bewerbungsteam

app@example.com

+61 2 3456 7890

Wenn der Hauptansprechpartner während eines Vorfalls nicht verfügbar ist, geben Sie bitte die Eskalationskontakte und den Zeitplan in der bevorzugten Kommunikationsreihenfolge an.

1. Wenn nach 10 Minuten keine Antwort vom Hauptansprechpartner erfolgt, wenden Sie sich an:

John Smith - Anwendungsleiter

john.smith@example.com

+61 2 3456 7890

2. Wenn nach 10 Minuten keine Antwort von John Smith vorliegt, wenden Sie sich an:

Jane Smith - Betriebsleiterin

jane.smith@example.com

+61 2 3456 7890

AWS informiert während des gesamten Vorfalls in regelmäßigen Abständen über den Support-Fall über Updates. Gibt es weitere Ansprechpartner, die diese Updates erhalten sollten?

john.smith@example.com, jane.smith@example.com

Alarmmatrix

Geben Sie die folgenden Informationen an, um die Gruppe von Alarmen zu identifizieren, die mithilfe von AWS Incident Detection and Response Incident Detection and Response Vorfälle für Ihren Workload auslösen. Sobald die Techniker von AWS Incident Detection and Response Ihre Alarme überprüft haben, werden weitere Onboarding-Schritte durchgeführt.

AWSKriterien für die Erkennung und Reaktion auf kritische Alarme bei Vorfällen:

  • AWSAlarme zur Erkennung und Reaktion auf Vorfälle sollten nur dann in den Status „Alarm“ übergehen, wenn erhebliche Auswirkungen auf die zu überwachende Arbeitslast (Umsatzeinbußen/Beeinträchtigung des Kundenerlebnisses) bestehen und sofortige Aufmerksamkeit des Bedieners erforderlich ist.

  • AWSBei Alarmen zur Erkennung und Reaktion auf Vorfälle müssen außerdem Ihre für die Arbeitslast zuständigen Mitarbeiter gleichzeitig oder vor dem Einsatz eingeschaltet werden. AWS Incident Manager arbeiten bei der Schadensbegrenzung mit Ihren Problemlösern zusammen und agieren nicht als Ersthelfer, die dann an Sie weiterleiten.

  • AWSDie Schwellenwerte für die Erkennung und Reaktion auf Alarme müssen auf einen angemessenen Schwellenwert und eine angemessene Dauer festgelegt werden, sodass bei jeder Auslösung eines Alarms eine Untersuchung durchgeführt werden muss. Wenn ein Alarm zwischen dem Zustand „Alarm“ und „OK“ wechselt, ist die Wirkung so groß, dass die Reaktion und Aufmerksamkeit des Bedieners gewährleistet ist.

AWSRichtlinie zur Erkennung und Reaktion auf Vorfälle bei Verstößen gegen Kriterien:

Diese Kriterien können nur dann bewertet werden, wenn Ereignisse eintreten. case-by-case Das Incident-Management-Team arbeitet mit Ihren technischen Kundenbetreuern (TAMs) zusammen, um Alarme anzupassen und in seltenen Fällen die Überwachung zu deaktivieren, wenn der Verdacht besteht, dass Kundenalarme diese Kriterien nicht erfüllen und das Incident-Management-Team unnötig regelmäßig einbezieht.

Wichtig

Geben Sie bei der Angabe von Kontaktadressen E-Mail-Adressen für die Gruppenverteilung an, sodass Sie das Hinzufügen und Löschen von Empfängern ohne Runbook-Updates kontrollieren können.

Geben Sie die Kontakttelefonnummer Ihres Site Reliability Engineering (SRE) -Teams an, wenn Sie möchten, dass das AWS Incident Detection and Response-Team das Team nach dem Senden einer ersten Kontakt-E-Mail anruft.

Alarmmatrixtabelle
Name der MetrikARN//Schwellenwert Beschreibung Hinweise Angeforderte Aktionen

Umfang der Arbeitslast/

CW Alarm ARN /

CallCount < 100.000 für 5 Datenpunkte innerhalb von 5 Minuten, fehlende Daten als fehlend behandeln

Diese Metrik stellt die Anzahl der eingehenden Anfragen für den Workload dar, gemessen auf Application Load Balancer Balancer-Ebene.

Dieser Alarm ist wichtig, da ein erheblicher Rückgang der eingehenden Anfragen auf Probleme mit der Upstream-Netzwerkkonnektivität oder auf Probleme mit unserer DNS Implementierung hinweisen kann, die dazu führen, dass Benutzer nicht auf den Workload zugreifen können.

Der Alarm ist in der letzten Woche zehnmal in den Zustand „Alarm“ übergegangen. Bei diesem Alarm besteht die Gefahr von Fehlalarmen. Eine Überprüfung der Schwellenwerte ist geplant.

Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst.

Problemlöser: Zuverlässigkeitsingenieure vor Ort

Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden SRE@xyz.com

Erstellen Sie eine AWS Premium-Supportanfrage für unsere ELB und Route 53-Services.

Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie den XYZ Führen Sie ein Team per E-Mail durch, um die Instanz neu zu starten, oder führen Sie eine Protokollbereinigung durch. (wenn kein sofortiges Eingreifen erforderlich ist, lassen Sie das Feld leer)

Latenz bei Workload-Anfragen/

CW Alarm ARN /

p90 Latenz > 100 ms für 5 Datenpunkte innerhalb von 5 Minuten, fehlende Daten als fehlend behandeln

Diese Metrik stellt die p90-Latenz für HTTP Anfragen dar, die durch den Workload erfüllt werden müssen.

Dieser Alarm steht für die Latenz (ein wichtiges Maß für das Kundenerlebnis auf der Website).

Der Alarm ist in der letzten Woche 0 Mal in den Zustand „Alarm“ übergegangen.

Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst.

Problemlöser: Zuverlässigkeitsingenieure vor Ort

Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden SRE@xyz.com

Erstellen Sie eine AWS Premium-Supportanfrage für unsere und ECW RDS Services.

Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie die XYZ Führen Sie ein Team per E-Mail durch, um die Instanz neu zu starten, oder führen Sie eine Protokollbereinigung durch. (wenn kein sofortiges Eingreifen erforderlich ist, lassen Sie das Feld leer)

Verfügbarkeit der Workload-Anfrage/

CW Alarm ARN /

Verfügbarkeit < 95% für 5 Datenpunkte innerhalb von 5 Minuten, fehlende Daten werden als fehlend behandelt.

Diese Metrik gibt die Verfügbarkeit von HTTP Anfragen an, die vom Workload erfüllt werden müssen. (Anzahl von HTTP 200 /Anzahl der Anfragen) pro Zeitraum.

Dieser Alarm steht für die Verfügbarkeit des Workloads.

Der Alarm ist in der letzten Woche 0 Mal in den Zustand „Alarm“ übergegangen.

Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst.

Problemlöser: Zuverlässigkeitsingenieure vor Ort

Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden SRE@xyz.com

Erstellen Sie eine AWS Premium-Supportanfrage für unsere ELB und Route 53-Services.

Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie den XYZ Führen Sie ein Team per E-Mail durch, um die Instanz neu zu starten, oder führen Sie eine Protokollbereinigung durch. (wenn kein sofortiges Eingreifen erforderlich ist, lassen Sie das Feld leer)

 

Beispiel für New Relic Alarm

Durchgängiger Integrationstest/

CW Alarm ARN /

Fehlerrate von 3% bei Messwerten von einer Minute über einen Zeitraum von 3 Minuten. Fehlende Daten werden als fehlend behandelt

Workload-ID: End-to-End-Test-Workflow, AWS Region: EAST US-1, AWS Konto-ID: 012345678910

Diese Metrik testet, ob eine Anfrage jede Ebene des Workloads durchlaufen kann. Schlägt dieser Test fehl, stellt dies einen kritischen Fehler bei der Verarbeitung von Geschäftstransaktionen dar.

Dieser Alarm steht für die Fähigkeit, Geschäftstransaktionen für den Workload zu verarbeiten.

Der Alarm ist in der letzten Woche 0 Mal in den Zustand „Alarm“ übergegangen.

Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst.

Problemlöser: Zuverlässigkeitsingenieure vor Ort

Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden SRE@xyz.com

Erstellen Sie eine AWS Premium-Supportanfrage für unsere ECS Dienste und DynamoDB.

Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie den XYZ Führen Sie ein Team per E-Mail durch, um die Instanz neu zu starten, oder führen Sie eine Protokollbereinigung durch. (wenn kein sofortiges Eingreifen erforderlich ist, lassen Sie das Feld leer)