Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cuestionarios de incorporación de cargas de trabajo e ingesta de alarmas en Incident Detection and Response
Esta página proporciona los cuestionarios que debe completar al incorporar una carga de trabajo a la detección y respuesta a AWS incidentes y al configurar las alarmas para incorporarlas al servicio. El cuestionario de incorporación de la carga de trabajo incluye información general sobre la carga de trabajo, los detalles de su arquitectura y los contactos necesarios para responder a los incidentes. En el cuestionario de ingesta de alarmas, debe especificar las alarmas críticas que deberían activar la creación de incidentes en Incident Detection and Response para su carga de trabajo, así como información resumida sobre con quién debe ponerse en contacto y qué medidas se deben tomar. Completar correctamente estos cuestionarios es un paso clave a la hora de configurar los procesos de supervisión y respuesta a incidentes para sus cargas de trabajo. AWS
Descargue el cuestionario de incorporación de cargas de trabajo
Descarga el cuestionario de ingesta de alarmas
Cuestionario de incorporación de la carga de trabajo: preguntas generales
Pregunta | Respuesta de ejemplo |
---|---|
Nombre de la empresa | Amazon Inc. |
Nombre de esta carga de trabajo (incluya cualquier abreviatura) | Operaciones minoristas de Amazon (ARO) |
El usuario final principal y la función de esta carga de trabajo. | Esta carga de trabajo es una aplicación de comercio electrónico que permite a los usuarios finales comprar varios artículos. Esta carga de trabajo es el principal generador de ingresos para nuestro negocio. |
Los requisitos normativos o de cumplimiento aplicables a esta carga de trabajo y cualquier acción que sea necesaria AWS después de un incidente. | La carga de trabajo se refiere a los registros de salud de los pacientes, que deben mantenerse seguros y confidenciales. |
Cuestionario de incorporación de la carga de trabajo: preguntas sobre arquitectura
Pregunta | Respuesta de ejemplo |
---|---|
Una lista de etiquetas de AWS recursos que se utilizan para definir los recursos que forman parte de esta carga de trabajo. AWS utiliza estas etiquetas para identificar los recursos de esta carga de trabajo a fin de agilizar el soporte durante los incidentes. notaLas etiquetas distinguen entre mayúsculas y minúsculas. Si proporciona varias etiquetas, todos los recursos utilizados por esta carga de trabajo deben tener las mismas etiquetas. |
appName: Optimax entorno: Producción |
Una lista de AWS los servicios utilizados por esta carga de trabajo y la AWS cuenta y las regiones en las que se encuentran. notaCrea una nueva fila para cada servicio. |
Ruta 53: enruta el tráfico de Internet alALB. Cuenta: 123456789101 Región: US- -1, US- -2 EAST WEST |
Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran. notaCrea una nueva fila para cada servicio. |
ALB: enruta el tráfico entrante a un grupo objetivo de ECS contenedores. Cuenta: 123456789101 Región: N/A |
Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran. notaCrea una nueva fila para cada servicio. |
ECS: Infraestructura de cómputo para la flota principal de lógica empresarial. Responsable de gestionar las solicitudes de los usuarios entrantes y de realizar consultas a la capa de persistencia. Cuenta: 123456789101 Región: US- -1 EAST |
Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran. notaCrea una nueva fila para cada servicio. |
RDS: el clúster Amazon Aurora almacena los datos de los usuarios a los que se accede mediante la capa de lógica ECS empresarial. Cuenta: 123456789101 Región: US- -1 EAST |
Una lista de AWS los servicios utilizados por esta carga de trabajo, junto con la AWS cuenta y las regiones en las que se encuentran. notaCrea una nueva fila para cada servicio. |
S3: Almacena los activos estáticos del sitio web. Cuenta: 123456789101 Región: N/A |
Detalle los componentes ascendentes/descendentes que no estén integrados y que puedan afectar a esta carga de trabajo en caso de producirse una interrupción. | Microservicio de autenticación: evitará que los usuarios carguen sus historiales médicos, ya que no estarán autenticados. |
¿Hay algún AWS componente interno o ajeno a esta carga de trabajo? Si es así, ¿qué son y qué funciones se desempeñan? | Todo el tráfico de entrada y salida de Internet AWS se enruta a través de nuestro servicio de proxy local. |
Proporcione detalles de cualquier plan manual o automatizado de recuperación ante fallos o desastres a nivel regional o de zona de disponibilidad. | Modo de espera en caliente. Conmutación por error automática al WEST US-2 durante una caída sostenida de la tasa de éxito. |
Cuestionario de incorporación de la carga de trabajo: preguntas sobre eventos AWS de servicio
Pregunta | Respuesta de ejemplo |
---|---|
Proporcione los datos de contacto (nombre/correo electrónico/teléfono) del equipo interno de gestión de incidentes graves o crisis de TI de su empresa. | Equipo de gestión de incidentes graves mim@example.com +61 2 3456 7890 |
Proporcione detalles de cualquier puente estático de gestión de incidentes/crisis establecido por su empresa. Si utiliza puentes no estáticos, especifique su aplicación preferida y AWS solicitará estos detalles durante un incidente. notaSi no se proporciona ninguno, nos pondremos en contacto con nosotros durante un incidente y te AWS proporcionaremos un puente de Chime al que puedas unirte. |
Amazon Chime https://chime.aws/1234567890 |
Cuestionario de ingestión de alarmas
Pregunta | Respuesta de ejemplo |
---|---|
AWS contratará a los contactos relacionados con la carga de trabajo a través del AWS Support caso. ¿Quién es el contacto principal cuando se activa una alarma relacionada con esta carga de trabajo? Especifique la aplicación de conferencias que prefiera y AWS solicitará estos detalles durante un incidente. notaSi no se proporciona una aplicación de conferencias preferida, nos pondremos en contacto contigo durante un incidente y te AWS proporcionaremos un Chime Bridge al que puedas unirte. |
Equipo de aplicaciones app@example.com +61 2 3456 7890 |
Si el contacto principal no está disponible durante un incidente, indique los contactos de emergencia y el calendario en el orden de comunicación preferido. |
1. Transcurridos 10 minutos, si el contacto principal no responde, interactúa con: John Smith: supervisor de aplicaciones john.smith@example.com +61 2 3456 7890 2. Transcurridos 10 minutos, si John Smith no responde, póngase en contacto con: Jane Smith, gerente de operaciones jane.smith@example.com +61 2 3456 7890 |
AWS comunica las actualizaciones a través del servicio de asistencia a intervalos regulares durante todo el incidente. ¿Hay contactos adicionales que deban recibir estas actualizaciones? |
john.smith@example.com, jane.smith@example.com |
Matriz de alarmas
Proporcione la siguiente información para identificar el conjunto de alarmas que activarán la detección y respuesta a AWS incidentes para generar incidentes en nombre de su carga de trabajo. Una vez que los ingenieros del AWS departamento de Detección y Respuesta a Incidentes hayan revisado sus alarmas, se procederá a adoptar medidas adicionales para incorporarlas.
AWSCriterios de alarma crítica para la detección y respuesta a incidentes:
AWSLas alarmas de detección y respuesta a incidentes solo deberían pasar al estado de «alarma» si la carga de trabajo monitorizada repercute de forma significativa en la actividad empresarial (pérdida de ingresos o deterioro de la experiencia del cliente) que requiera la atención inmediata del operador.
AWSLas alarmas de detección y respuesta a incidentes también deben hacer que los encargados de resolver la carga de trabajo se activen al mismo tiempo o antes de activarlas. AWS Los gestores de incidencias colaboran con las personas encargadas de la resolución en el proceso de mitigación y no actúan como los primeros en responder y luego acudir a usted.
AWSLos umbrales de alarma de detección y respuesta a incidentes se deben establecer con un umbral y una duración adecuados, de modo que cada vez que se active una alarma se lleve a cabo una investigación. Si una alarma se mueve entre el estado «Alarma» y el estado «OK», se está produciendo un impacto suficiente como para justificar la respuesta y la atención del operador.
AWSPolítica de detección de incidentes y respuesta en caso de incumplimiento de los criterios:
Estos criterios solo se pueden evaluar a case-by-case medida que se producen los eventos. El equipo de gestión de incidentes trabaja con sus gestores técnicos de cuentas (TAMs) para ajustar las alarmas y, en raras ocasiones, inhabilitar la supervisión si se sospecha que las alarmas de los clientes no cumplen con este criterio y recurre al equipo de gestión de incidentes de forma innecesaria y regular.
importante
Proporcione direcciones de correo electrónico de distribución en grupo cuando indique las direcciones de contacto, de modo que pueda controlar las incorporaciones y eliminaciones de destinatarios sin necesidad de actualizar el manual.
Indique el número de teléfono de contacto del equipo de ingeniería de confiabilidad del sitio (SRE) si desea que el equipo de detección y respuesta a AWS incidentes lo llame después de enviar un correo electrónico de contacto inicial.
Nombre métricoARN//Umbral | Descripción | Notas | Acciones solicitadas |
---|---|---|---|
Volumen de carga de trabajo/
CallCount < 100 000 para 5 puntos de datos en 5 minutos, trate los datos faltantes como si faltaran |
Esta métrica representa la cantidad de solicitudes entrantes que llegan a la carga de trabajo, medida en el nivel de Application Load Balancer. Esta alarma es importante porque las caídas significativas en las solicitudes entrantes pueden indicar problemas con la conectividad de la red ascendente o problemas con nuestra DNS implementación que hacen que los usuarios no puedan acceder a la carga de trabajo. |
La alarma ha entrado en el estado de «Alarma» 10 veces en la última semana. Esta alarma corre el riesgo de producir falsos positivos. Está prevista una revisión de los umbrales. ¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular. Resolvedores: ingenieros de confiabilidad del sitio |
Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a Cree un caso de AWS Premium Support para nuestros servicios y ELB los de Route 53. Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al |
Latencia de solicitud de carga de trabajo/
p90 Latencia superior a 100 ms para 5 puntos de datos en 5 minutos; trate los datos faltantes como si faltaran |
Esta métrica representa la latencia de p90 para que la carga de HTTP trabajo atienda las solicitudes. Esta alarma representa la latencia (una medida importante de la experiencia del cliente para el sitio web). |
La alarma ha entrado en el estado de «Alarma» 0 veces en la última semana. ¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular. Resolvedores: ingenieros de confiabilidad del sitio |
Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a Cree un caso de AWS Premium Support para nuestros ECW RDS servicios y. Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al |
Disponibilidad de solicitudes de carga de trabajo/
Disponibilidad inferior al 95% para 5 puntos de datos en 5 minutos; trate los datos faltantes como si faltaran. |
Esta métrica representa la disponibilidad de HTTP las solicitudes que debe tramitar la carga de trabajo (número de HTTP 200/número de solicitudes) por período. Esta alarma representa la disponibilidad de la carga de trabajo. |
La alarma ha entrado en el estado de «Alarma» 0 veces en la última semana. ¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular. Resolvedores: ingenieros de confiabilidad del sitio |
Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a Cree un caso de AWS Premium Support para nuestros servicios y ELB los de Route 53. Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al |
| |||
Ejemplo de alarma de New Relic | |||
Prueba de integración de extremo a extremo/
Tasa de error del 3% para métricas de 1 minuto de duración superior a 3 minutos; trate los datos faltantes como si faltaran Identificador de carga de trabajo: flujo de trabajo de prueba integral, AWS región: EAST US-1, ID de AWS cuenta: 012345678910 |
Esta métrica comprueba si una solicitud puede atravesar cada capa de la carga de trabajo. Si esta prueba falla, se trata de una falla crítica en el procesamiento de las transacciones comerciales. Esta alarma representa la capacidad de procesar las transacciones comerciales para la carga de trabajo. |
La alarma ha entrado en el estado de «Alarma» 0 veces en la última semana. ¿Problemas? No o sí (si no, déjelo en blanco): esta alarma se activa con frecuencia durante la ejecución de un trabajo por lotes en particular. Resolvedores: ingenieros de confiabilidad del sitio |
Comuníquese con el equipo de ingeniería de confiabilidad del sitio enviando un correo electrónico a Cree un caso de AWS Premium Support para nuestros ECS servicios y los de DynamoDB. Si es necesario IMMEDIATE tomar alguna medida: compruebe si hay memoria o espacio EC2 libre en disco e informe al |