Fragebogen zum Onboarding zur Arbeitslast — Allgemeine Fragen Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur Fragebogen zum Onboarding von Workloads — Fragen zum AWS Service Event Fragebogen zur Erfassung von Alarmen Alarmmatrix

Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response

Auf dieser Seite finden Sie die Fragebögen, die Sie ausfüllen müssen, wenn Sie einen Workload in AWS Incident Detection and Response integrieren und wenn Sie Alarme für die Aufnahme in den Service konfigurieren. Der Fragebogen zum Onboarding von Workloads enthält allgemeine Informationen über Ihren Workload, dessen Architekturdetails und Ansprechpartner für die Reaktion auf Vorfälle. Im Fragebogen zur Erfassung von Alarmen geben Sie in Incident Detection and Response für Ihren Workload die kritischen Alarme an, die zur Entstehung von Vorfällen führen sollen. Außerdem geben Sie Runbook-Informationen darüber an, wer kontaktiert werden soll und welche Maßnahmen ergriffen werden sollten. Das korrekte Ausfüllen dieser Fragebögen ist ein wichtiger Schritt bei der Einrichtung von Überwachungs- und Reaktionsprozessen für Ihre Workloads. AWS

Laden Sie den Fragebogen zum Onboarding von Workloads herunter.

Laden Sie den Fragebogen zur Erfassung von Alarmen herunter.

Fragebogen zum Onboarding zum Workload — Allgemeine Fragen

Allgemeine Fragen
Frage	Beispielantwort
Name des Unternehmens	Amazon Inc.
Name dieses Workloads (einschließlich aller Abkürzungen)	Amazon-Einzelhandelsgeschäfte (ARO)
Primärer Endbenutzer und die Funktion dieses Workloads.	Bei diesem Workload handelt es sich um eine E-Commerce-Anwendung, die es Endbenutzern ermöglicht, verschiedene Artikel zu kaufen. Dieser Workload ist der Hauptumsatzgenerator für unser Unternehmen.
Geltende Compliance- und/oder behördliche Anforderungen für diese Arbeitslast und alle Maßnahmen, die AWS nach einem Vorfall erforderlich sind.	Der Arbeitsaufwand bezieht sich auf Patientenakten, die sicher und vertraulich aufbewahrt werden müssen.

Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur

Fragen zur Architektur
Frage	Beispielantwort
Eine Liste von AWS Ressourcen-Tags, die zur Definition von Ressourcen verwendet werden, die Teil dieser Arbeitslast sind. AWS verwendet diese Tags, um die Ressourcen dieses Workloads zu identifizieren, um den Support bei Vorfällen zu beschleunigen. Anmerkung Bei Tags muss die Groß- und Kleinschreibung beachtet werden. Wenn Sie mehrere Tags angeben, müssen alle von diesem Workload verwendeten Ressourcen dieselben Tags haben.	appName: Optimax Umgebung: Produktion
Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden. Anmerkung Erstellen Sie für jeden Dienst eine neue Zeile.	Route 53: Leitet den Internetverkehr an die weiterALB. Konto: 123456789101 Region: US-1, US-2 EAST WEST
Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden. Anmerkung Erstellen Sie für jeden Dienst eine neue Zeile.	ALB: Leitet eingehenden Traffic an eine Zielgruppe von ECS Containern weiter. Konto: 123456789101 Region: N/A
Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden. Anmerkung Erstellen Sie für jeden Dienst eine neue Zeile.	ECS: Recheninfrastruktur für die Hauptflotte der Geschäftslogik. Verantwortlich für die Bearbeitung eingehender Benutzeranfragen und für Abfragen an die Persistenzschicht. Konto: 123456789101 Region: US-1 EAST
Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden. Anmerkung Erstellen Sie für jeden Dienst eine neue Zeile.	RDS: Der Amazon Aurora Aurora-Cluster speichert Benutzerdaten, auf die über die ECS Geschäftslogikschicht zugegriffen wird. Konto: 123456789101 Region: US-1 EAST
Eine Liste der AWS Dienste, die von diesem Workload genutzt werden, sowie das AWS Konto und die Regionen, in denen sie sich befinden. Anmerkung Erstellen Sie für jeden Dienst eine neue Zeile.	S3: Speichert statische Inhalte der Website. Konto: 123456789101 Region: N/A
Geben Sie alle Upstream-/Downstream-Komponenten an, die nicht integriert wurden und die sich bei einem Ausfall auf diese Arbeitslast auswirken könnten.	Authentifizierungs-Microservice: Verhindert, dass Benutzer ihre Gesundheitsdaten laden, da diese nicht authentifiziert werden.
Gibt es On-Premise-Komponenten oder AWS Komponenten für diesen Workload? Falls ja, was sind sie und welche Funktionen werden ausgeführt?	Der gesamte ein-/ausgehende internetbasierte Datenverkehr AWS wird über unseren lokalen Proxy-Service geleitet.
Geben Sie Einzelheiten zu allen manuellen oder automatisierten Failover-/Disaster-Recovery-Plänen auf Availability Zone- und regionaler Ebene an.	Warmer Bereitschaftsmodus. Automatischer Failover auf WEST US-2 bei anhaltendem Rückgang der Erfolgsquote.

Fragebogen zum Onboarding von Workloads — Fragen zum AWS Service Event

AWS Fragen zu Serviceereignissen
Frage	Beispielantwort
Geben Sie die Kontaktdaten an (name/email/phone) of your company's internal major incident/ITKrisenmanagementteam).	Team für das Management schwerer Vorfälle mim@example.com +61 2 3456 7890
Geben Sie Einzelheiten zu jeder statischen Brücke zwischen Vorfällen und Krisenmanagement an, die von Ihrem Unternehmen eingerichtet wurden. Wenn Sie nichtstatische Brücken verwenden, geben Sie Ihre bevorzugte Anwendung an und AWS wir fordern diese Informationen bei einem Vorfall an. Anmerkung Wenn keine bereitgestellt wird, wird sich während eines Vorfalls mit AWS Ihnen in Verbindung setzen und Ihnen eine Chime-Bridge zur Verfügung stellen, an der Sie teilnehmen können.	Amazon Chime https://chime.aws/1234567890

Fragebogen zur Erfassung von Alarmen

Runbook-Fragen
Frage	Beispielantwort
AWS wird im Rahmen des Support Falls Ansprechpartner für die Arbeitslast ansprechen. Wer ist der Hauptansprechpartner, wenn ein Alarm für diese Arbeitslast ausgelöst wird? Geben Sie Ihre bevorzugte Konferenzanwendung an und AWS wir werden Sie bei einem Vorfall nach diesen Informationen fragen. Anmerkung Wenn keine bevorzugte Konferenzanwendung zur Verfügung steht, wird sich während eines Vorfalls mit AWS Ihnen in Verbindung setzen und Ihnen eine Chime-Bridge zur Verfügung stellen, an der Sie teilnehmen können.	Bewerbungsteam app@example.com +61 2 3456 7890
Wenn der Hauptansprechpartner während eines Vorfalls nicht verfügbar ist, geben Sie bitte die Eskalationskontakte und den Zeitplan in der bevorzugten Kommunikationsreihenfolge an.	1. Wenn nach 10 Minuten keine Antwort vom Hauptansprechpartner erfolgt, wenden Sie sich an: John Smith - Anwendungsleiter john.smith@example.com +61 2 3456 7890 2. Wenn nach 10 Minuten keine Antwort von John Smith vorliegt, wenden Sie sich an: Jane Smith - Betriebsleiterin jane.smith@example.com +61 2 3456 7890
AWS informiert während des gesamten Vorfalls in regelmäßigen Abständen über den Support-Fall über Updates. Gibt es weitere Ansprechpartner, die diese Updates erhalten sollten?	john.smith@example.com, jane.smith@example.com

Alarmmatrix

Geben Sie die folgenden Informationen an, um die Gruppe von Alarmen zu identifizieren, die mithilfe von AWS Incident Detection and Response Incident Detection and Response Vorfälle für Ihren Workload auslösen. Sobald die Techniker von AWS Incident Detection and Response Ihre Alarme überprüft haben, werden weitere Onboarding-Schritte durchgeführt.

AWSKriterien für die Erkennung und Reaktion auf kritische Alarme bei Vorfällen:

AWSAlarme zur Erkennung und Reaktion auf Vorfälle sollten nur dann in den Status „Alarm“ übergehen, wenn erhebliche Auswirkungen auf die zu überwachende Arbeitslast (Umsatzeinbußen/Beeinträchtigung des Kundenerlebnisses) bestehen und sofortige Aufmerksamkeit des Bedieners erforderlich ist.
AWSBei Alarmen zur Erkennung und Reaktion auf Vorfälle müssen gleichzeitig oder vor dem Einsatz auch Ihre für die Arbeitslast zuständigen Mitarbeiter aktiviert werden. AWS Incident Manager arbeiten bei der Schadensbegrenzung mit Ihren Problemlösern zusammen und agieren nicht als Ersthelfer, die dann an Sie weiterleiten.
AWSDie Schwellenwerte für die Erkennung und Reaktion auf Alarme müssen auf einen angemessenen Schwellenwert und eine angemessene Dauer festgelegt werden, sodass bei jeder Auslösung eines Alarms eine Untersuchung durchgeführt werden muss. Wenn ein Alarm zwischen dem Zustand „Alarm“ und „OK“ wechselt, ist die Wirkung so groß, dass die Reaktion und Aufmerksamkeit des Bedieners gewährleistet ist.

AWSRichtlinie zur Erkennung und Reaktion auf Vorfälle bei Verstößen gegen Kriterien:

Diese Kriterien können nur dann bewertet werden, wenn Ereignisse eintreten. case-by-case Das Incident-Management-Team arbeitet mit Ihren technischen Kundenbetreuern (TAMs) zusammen, um Alarme anzupassen und in seltenen Fällen die Überwachung zu deaktivieren, wenn der Verdacht besteht, dass Kundenalarme diese Kriterien nicht erfüllen und das Incident-Management-Team unnötig regelmäßig einbezieht.

Wichtig

Geben Sie bei der Angabe von Kontaktadressen E-Mail-Adressen für die Gruppenverteilung an, sodass Sie das Hinzufügen und Löschen von Empfängern ohne Runbook-Updates kontrollieren können.

Geben Sie die Kontakttelefonnummer Ihres Site Reliability Engineering (SRE) -Teams an, wenn Sie möchten, dass das AWS Incident Detection and Response-Team das Team nach dem Senden einer ersten Kontakt-E-Mail anruft.

Alarm-Matrixtabelle
Name der MetrikARN//Schwellenwert	Beschreibung	Hinweise	Angeforderte Aktionen
Umfang der Arbeitslast/ `CW Alarm ARN` / CallCount < 100.000 für 5 Datenpunkte innerhalb von 5 Minuten, fehlende Daten als fehlend behandeln	Diese Metrik stellt die Anzahl der eingehenden Anfragen für den Workload dar, gemessen auf Application Load Balancer Balancer-Ebene. Dieser Alarm ist wichtig, da ein erheblicher Rückgang der eingehenden Anfragen auf Probleme mit der Upstream-Netzwerkkonnektivität oder auf Probleme mit unserer DNS Implementierung hinweisen kann, die dazu führen, dass Benutzer nicht auf den Workload zugreifen können.	Der Alarm ist in der letzten Woche zehnmal in den Zustand „Alarm“ übergegangen. Bei diesem Alarm besteht die Gefahr von Fehlalarmen. Eine Überprüfung der Schwellenwerte ist geplant. Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst. Problemlöser: Zuverlässigkeitsingenieure vor Ort	Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden `SRE@xyz.com` Erstellen Sie eine AWS Premium-Supportanfrage für unsere ELB und Route 53-Services. Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie das `XYZ` Team per E-Mail, ob es die Instanz neu starten soll, oder führen Sie einen Log Flush durch. (wenn keine sofortige Aktion erforderlich ist, lassen Sie das Feld leer)
Latenz bei Workload-Anfragen/ `CW Alarm ARN` / p90 Latenz > 100 ms für 5 Datenpunkte innerhalb von 5 Minuten, fehlende Daten als fehlend behandeln	Diese Metrik stellt die p90-Latenz für HTTP Anfragen dar, die durch den Workload erfüllt werden müssen. Dieser Alarm steht für die Latenz (ein wichtiges Maß für das Kundenerlebnis auf der Website).	Der Alarm ist in der letzten Woche 0 Mal in den Zustand „Alarm“ übergegangen. Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst. Problemlöser: Zuverlässigkeitsingenieure vor Ort	Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden `SRE@xyz.com` Erstellen Sie eine AWS Premium-Supportanfrage für unsere und ECW RDS Services. Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie das `XYZ` Team per E-Mail, ob es die Instanz neu starten soll, oder führen Sie einen Log Flush durch. (wenn keine sofortige Aktion erforderlich ist, lassen Sie das Feld leer)
Verfügbarkeit der Workload-Anfrage/ `CW Alarm ARN` / Verfügbarkeit < 95% für 5 Datenpunkte innerhalb von 5 Minuten, fehlende Daten werden als fehlend behandelt.	Diese Metrik gibt die Verfügbarkeit von HTTP Anfragen an, die durch den Workload erfüllt werden müssen. (Anzahl von HTTP 200 /Anzahl der Anfragen) pro Zeitraum. Dieser Alarm steht für die Verfügbarkeit des Workloads.	Der Alarm ist in der letzten Woche 0 Mal in den Zustand „Alarm“ übergegangen. Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst. Problemlöser: Zuverlässigkeitsingenieure vor Ort	Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden `SRE@xyz.com` Erstellen Sie eine AWS Premium-Supportanfrage für unsere ELB und Route 53-Services. Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie das `XYZ` Team per E-Mail, ob es die Instanz neu starten soll, oder führen Sie einen Log Flush durch. (wenn keine sofortige Aktion erforderlich ist, lassen Sie das Feld leer)

Beispiel für New Relic Alarm
Durchgängiger Integrationstest/ `CW Alarm ARN` / Fehlerrate von 3% bei Messwerten von einer Minute über einen Zeitraum von 3 Minuten. Fehlende Daten werden als fehlend behandelt Workload-ID: End-to-End-Test-Workflow, AWS Region: EAST US-1, AWS Konto-ID: 012345678910	Diese Metrik testet, ob eine Anfrage jede Ebene des Workloads durchlaufen kann. Schlägt dieser Test fehl, stellt dies einen kritischen Fehler bei der Verarbeitung von Geschäftstransaktionen dar. Dieser Alarm steht für die Fähigkeit, Geschäftstransaktionen für den Workload zu verarbeiten.	Der Alarm ist in der letzten Woche 0 Mal in den Zustand „Alarm“ übergegangen. Probleme? Nein oder Ja (wenn Nein, leer lassen): Dieser Alarm wird während der Ausführung eines bestimmten Batch-Jobs häufig ausgelöst. Problemlöser: Zuverlässigkeitsingenieure vor Ort	Wenden Sie sich an das Site Reliability Engineering-Team, indem Sie eine E-Mail an senden `SRE@xyz.com` Erstellen Sie eine AWS Premium-Supportanfrage für unsere ECS Dienste und DynamoDB. Falls IMMEDIATE Maßnahmen erforderlich sind: Aktivieren Sie die Option EC2 Freier Arbeitsspeicher/Festplattenspeicher und informieren Sie das `XYZ` Team per E-Mail, ob es die Instanz neu starten oder eine Protokollbereinigung durchführen soll. (wenn keine sofortige Aktion erforderlich ist, lassen Sie das Feld leer)

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Onboarding

Erkennung von Arbeitslasten

Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response

Fragebogen zum Onboarding zum Workload — Allgemeine Fragen

Fragebogen zum Onboarding der Arbeitslast — Fragen zur Architektur

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Anmerkung

Fragebogen zum Onboarding von Workloads — Fragen zum AWS Service Event

Anmerkung

Fragebogen zur Erfassung von Alarmen

Anmerkung

Alarmmatrix

Wichtig