Cuestionarios de incorporación de cargas de trabajo e ingesta de alarmas en Incident Detection and Response - AWSGuía del usuario de detección y respuesta a incidentes

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cuestionarios de incorporación de cargas de trabajo e ingesta de alarmas en Incident Detection and Response

Esta página proporciona los cuestionarios que debe completar al incorporar una carga de trabajo a la detección y respuesta a AWS incidentes y al configurar las alarmas para incorporarlas al servicio. El cuestionario de incorporación de la carga de trabajo incluye información general sobre la carga de trabajo, los detalles de su arquitectura y los contactos necesarios para responder a los incidentes. En el cuestionario de ingesta de alarmas, debe especificar las alarmas críticas que deberían activar la creación de incidentes en Incident Detection and Response para su carga de trabajo, así como información resumida sobre con quién debe ponerse en contacto y qué medidas se deben tomar. Completar correctamente estos cuestionarios es un paso clave a la hora de configurar los procesos de supervisión y respuesta a incidentes para sus cargas de trabajo. AWS

Descargue el cuestionario de incorporación de cargas de trabajo.

Descarga el cuestionario de ingesta de alarmas.

Cuestionario de incorporación de la carga de trabajo: preguntas generales

Preguntas generales
Pregunta Respuesta de ejemplo
Nombre de la empresa

Amazon Inc.

Nombre de esta carga de trabajo (incluya cualquier abreviatura)

Operaciones minoristas de Amazon (ARO)

El usuario final principal y la función de esta carga de trabajo.

Esta carga de trabajo es una aplicación de comercio electrónico que permite a los usuarios finales comprar varios artículos. Esta carga de trabajo es el principal generador de ingresos para nuestro negocio.

Los requisitos normativos o de cumplimiento aplicables a esta carga de trabajo y cualquier acción que sea necesaria AWS después de un incidente.

La carga de trabajo se refiere a los registros de salud de los pacientes, que deben mantenerse seguros y confidenciales.

Cuestionario de incorporación de la carga de trabajo: preguntas sobre arquitectura

Preguntas de arquitectura
Pregunta Respuesta de ejemplo

Una lista de etiquetas de AWS recursos que se utilizan para definir los recursos que forman parte de esta carga de trabajo. AWS utiliza estas etiquetas para identificar los recursos de esta carga de trabajo a fin de agilizar el soporte durante los incidentes.

nota

Las etiquetas distinguen entre mayúsculas y minúsculas. Si proporciona varias etiquetas, todos los recursos utilizados por esta carga de trabajo deben tener las mismas etiquetas.

appName: Optimax

entorno: Producción

Una lista de AWS los servicios utilizados por esta carga de trabajo y la AWS cuenta y las regiones en las que se encuentran.

nota

Crea una nueva fila para cada servicio.

Ruta 53: enruta el tráfico de Internet alALB.

Cuenta: 123456789101

Región: US- -1, US- -2 EAST WEST

Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran.

nota

Crea una nueva fila para cada servicio.

ALB: enruta el tráfico entrante a un grupo objetivo de ECS contenedores.

Cuenta: 123456789101

Región: N/A

Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran.

nota

Crea una nueva fila para cada servicio.

ECS: Infraestructura de cómputo para la flota principal de lógica empresarial. Responsable de gestionar las solicitudes de los usuarios entrantes y de realizar consultas a la capa de persistencia.

Cuenta: 123456789101

Región: US- -1 EAST

Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran.

nota

Crea una nueva fila para cada servicio.

RDS: el clúster Amazon Aurora almacena los datos de los usuarios a los que se accede mediante la capa de lógica ECS empresarial.

Cuenta: 123456789101

Región: US- -1 EAST

Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran.

nota

Crea una nueva fila para cada servicio.

S3: Almacena los activos estáticos del sitio web.

Cuenta: 123456789101

Región: N/A

Detalle los componentes ascendentes/descendentes que no estén integrados y que puedan afectar a esta carga de trabajo en caso de producirse una interrupción. Microservicio de autenticación: evitará que los usuarios carguen sus historiales médicos, ya que no estarán autenticados.
¿Hay algún AWS componente interno o ajeno a esta carga de trabajo? Si es así, ¿qué son y qué funciones se desempeñan? Todo el tráfico de entrada y salida de Internet AWS se enruta a través de nuestro servicio de proxy local.
Proporcione detalles de cualquier plan manual o automatizado de recuperación ante fallos o desastres a nivel regional o de zona de disponibilidad. Modo de espera en caliente. Conmutación por error automática al WEST US-2 durante una caída sostenida de la tasa de éxito.

Cuestionario de incorporación de la carga de trabajo: preguntas sobre eventos AWS de servicio

AWS Preguntas sobre eventos de servicio
Pregunta Respuesta de ejemplo
Proporcione los datos de contacto (nombre/correo electrónico/teléfono) del equipo interno de gestión de incidentes graves o crisis de TI de su empresa.

Equipo de gestión de incidentes graves

mim@example.com

+61 2 3456 7890

Proporcione detalles de cualquier puente estático de gestión de incidentes/crisis establecido por su empresa. Si utiliza puentes no estáticos, especifique su aplicación preferida y AWS solicitará estos detalles durante un incidente.

nota

Si no se proporciona ninguno, nos pondremos en contacto con nosotros durante un incidente y te AWS proporcionaremos un puente de Chime al que puedas unirte.

Amazon Chime

https://chime.aws/1234567890

Cuestionario de ingestión de alarmas

Preguntas del manual
Pregunta Respuesta de ejemplo

AWS contratará a los contactos relacionados con la carga de trabajo a través del AWS Support caso. ¿Quién es el contacto principal cuando se activa una alarma relacionada con esta carga de trabajo?

Especifique la aplicación de conferencias que prefiera y AWS solicitará estos detalles durante un incidente.

nota

Si no se proporciona una aplicación de conferencias preferida, nos pondremos en contacto contigo durante un incidente y te AWS proporcionaremos un Chime Bridge al que puedas unirte.

Equipo de aplicaciones

app@example.com

+61 2 3456 7890

Si el contacto principal no está disponible durante un incidente, indique los contactos de emergencia y el calendario en el orden de comunicación preferido.

1. Transcurridos 10 minutos, si el contacto principal no responde, interactúa con:

John Smith: supervisor de aplicaciones

john.smith@example.com

+61 2 3456 7890

2. Transcurridos 10 minutos, si John Smith no responde, póngase en contacto con:

Jane Smith, gerente de operaciones

jane.smith@example.com

+61 2 3456 7890

AWS comunica las actualizaciones a través del servicio de asistencia a intervalos regulares durante todo el incidente. ¿Hay contactos adicionales que deban recibir estas actualizaciones?

john.smith@example.com, jane.smith@example.com

Matriz de alarmas

Proporcione la siguiente información para identificar el conjunto de alarmas que activarán la detección y respuesta a AWS incidentes para generar incidentes en nombre de su carga de trabajo. Una vez que los ingenieros del AWS departamento de Detección y Respuesta a Incidentes hayan revisado sus alarmas, se procederá a adoptar medidas adicionales para incorporarlas.

AWSCriterios de alarma crítica para la detección y respuesta a incidentes:

  • AWSLas alarmas de detección y respuesta a incidentes solo deberían pasar al estado de «alarma» si la carga de trabajo monitorizada repercute de forma significativa en la actividad empresarial (pérdida de ingresos o deterioro de la experiencia del cliente) que requiera la atención inmediata del operador.

  • AWSLas alarmas de detección y respuesta a incidentes también deben hacer que los encargados de resolver la carga de trabajo se activen al mismo tiempo o antes de activarlas. AWS Los gestores de incidencias colaboran con las personas encargadas de la resolución en el proceso de mitigación y no actúan como los primeros en responder y luego acudir a usted.

  • AWSLos umbrales de alarma de detección y respuesta a incidentes se deben establecer con un umbral y una duración adecuados, de modo que cada vez que se active una alarma se lleve a cabo una investigación. Si una alarma se mueve entre el estado «Alarma» y el estado «OK», se está produciendo un impacto suficiente como para justificar la respuesta y la atención del operador.

AWSPolítica de detección de incidentes y respuesta en caso de incumplimiento de los criterios:

Estos criterios solo se pueden evaluar a case-by-case medida que se producen los eventos. El equipo de gestión de incidentes trabaja con sus gestores técnicos de cuentas (TAMs) para ajustar las alarmas y, en raras ocasiones, inhabilitar la supervisión si se sospecha que las alarmas de los clientes no cumplen con este criterio y recurre al equipo de gestión de incidentes de forma innecesaria y regular.

importante

Proporcione direcciones de correo electrónico de distribución en grupo cuando indique las direcciones de contacto, de modo que pueda controlar las incorporaciones y eliminaciones de destinatarios sin necesidad de actualizar el manual.

Indique el número de teléfono de contacto del equipo de ingeniería de confiabilidad del sitio (SRE) si desea que el equipo de detección y respuesta a AWS incidentes lo llame después de enviar un correo electrónico de contacto inicial.

Tabla matricial de alarmas
Nombre métricoARN//Umbral Descripción Notas Acciones solicitadas

Volumen de carga de trabajo/

CW Alarm ARN /

CallCount < 100 000 para 5 puntos de datos en 5 minutos, trate los datos faltantes como si faltaran

Esta métrica representa la cantidad de solicitudes entrantes que llegan a la carga de trabajo, medida en el nivel de Application Load Balancer.

Esta alarma es importante porque las caídas significativas en las solicitudes entrantes pueden indicar problemas con la conectividad de la red ascendente o problemas con nuestra DNS implementación que hacen que los usuarios no puedan acceder a la carga de trabajo.

La alarma ha entrado en el estado de «Alarma» 10 veces en la última semana. Esta alarma corre el riesgo de producir falsos positivos. Está prevista una revisión de los umbrales.

¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular.

Resolvedores: ingenieros de confiabilidad del sitio

Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a SRE@xyz.com

Cree un caso de AWS Premium Support para nuestros servicios y ELB los de Route 53.

Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al XYZ Trabaje en equipo por correo electrónico para reiniciar la instancia o ejecutar una limpieza de registros. (si no es necesaria una acción inmediata, déjelo en blanco)

Latencia de solicitud de carga de trabajo/

CW Alarm ARN /

p90 Latencia superior a 100 ms para 5 puntos de datos en 5 minutos; trate los datos faltantes como si faltaran

Esta métrica representa la latencia de p90 para que la carga de HTTP trabajo atienda las solicitudes.

Esta alarma representa la latencia (una medida importante de la experiencia del cliente para el sitio web).

La alarma ha entrado en el estado de «Alarma» 0 veces en la última semana.

¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular.

Resolvedores: ingenieros de confiabilidad del sitio

Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a SRE@xyz.com

Cree un caso de AWS Premium Support para nuestros ECW RDS servicios y.

Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al XYZ Trabaje en equipo por correo electrónico para reiniciar la instancia o ejecutar una limpieza de registros. (si no es necesaria una acción inmediata, déjelo en blanco)

Disponibilidad de solicitudes de carga de trabajo/

CW Alarm ARN /

Disponibilidad inferior al 95% para 5 puntos de datos en 5 minutos; trate los datos faltantes como si faltaran.

Esta métrica representa la disponibilidad de HTTP las solicitudes que debe tramitar la carga de trabajo (número de HTTP 200/número de solicitudes) por período.

Esta alarma representa la disponibilidad de la carga de trabajo.

La alarma ha entrado en el estado de «Alarma» 0 veces en la última semana.

¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular.

Resolvedores: ingenieros de confiabilidad del sitio

Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a SRE@xyz.com

Cree un caso de AWS Premium Support para nuestros servicios y ELB los de Route 53.

Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al XYZ Trabaje en equipo por correo electrónico para reiniciar la instancia o ejecutar una limpieza de registros. (si no es necesaria una acción inmediata, déjelo en blanco)

 

Ejemplo de alarma de New Relic

Prueba de integración de extremo a extremo/

CW Alarm ARN /

Tasa de error del 3% para métricas de 1 minuto de duración superior a 3 minutos; trate los datos faltantes como si faltaran

Identificador de carga de trabajo: flujo de trabajo de prueba integral, AWS región: EAST US-1, ID de AWS cuenta: 012345678910

Esta métrica comprueba si una solicitud puede atravesar cada capa de la carga de trabajo. Si esta prueba falla, se trata de una falla crítica en el procesamiento de las transacciones comerciales.

Esta alarma representa la capacidad de procesar las transacciones comerciales para la carga de trabajo.

La alarma ha entrado en el estado de «Alarma» 0 veces en la última semana.

¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular.

Resolvedores: ingenieros de confiabilidad del sitio

Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a SRE@xyz.com

Cree un caso de AWS Premium Support para nuestros ECS servicios y los de DynamoDB.

Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al XYZ Trabaje en equipo por correo electrónico para reiniciar la instancia o ejecutar una limpieza de registros. (si no es necesaria una acción inmediata, déjelo en blanco)