¿Qué es AWS Systems Manager Incident Manager? - Incident Manager

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es AWS Systems Manager Incident Manager?

Incident Manager, una capacidad de AWS Systems Manager, está diseñado para ayudarle a mitigar incidentes que afecten a sus aplicaciones alojadas en AWS y a recuperarse de los mismos.

En el contexto de AWS, un incidente es cualquier interrupción no planificada o reducción de calidad de los servicios que pueda tener un impacto significativo en las operaciones empresariales. Por lo tanto, es esencial que las organizaciones establezcan una estrategia de respuesta de mitigación y recuperación eficaz ante incidentes e implementen acciones para prevenirlos en el futuro.

Para ayudar a reducir el tiempo de resolución de incidentes, Incident Manager:

  • Proporciona planes automatizados que involucra de manera eficiente a las personas responsables de responder a los incidentes.

  • Proporciona datos relevantes para la solución de problemas.

  • Habilita acciones de respuesta automatizadas mediante manuales de procedimientos de automatización predefinidos.

  • Proporciona métodos para colaborar y comunicar con todas las partes interesadas.

Las características y los flujos de trabajo integrados en Incident Manager se basan en las prácticas recomendadas de respuesta a incidentes que Amazon ha venido desarrollando casi desde su creación. Incident Manager se integra con Servicios de AWS como Amazon CloudWatch, AWS CloudTrail, AWS Systems Manager y Amazon EventBridge.

Componentes y características principales

En esta sección se describen las características de Incident Manager que usted utiliza para configurar sus planes de respuesta a incidentes.

Plan de respuesta

Un plan de respuesta funciona como una plantilla que define lo que se debe establecer al producirse un incidente. Incluye información como:

  • Quién debe responder al producirse un incidente.

  • La respuesta automatizada establecida para mitigar el incidente.

  • La herramienta de colaboración que los respondedores deben utilizar para comunicar y recibir notificaciones automáticas sobre el incidente.

Detección de incidentes

Puede configurar alarmas de Amazon CloudWatch y eventos de Amazon EventBridge para crear incidentes al detectarse condiciones o cambios que afecten a sus recursos de AWS.

Soporte de automatización de manuales de procedimientos

Puede iniciar manuales de procedimientos de automatización desde Incident Manager para automatizar su respuesta crítica a los incidentes y proporcionar pasos detallados a los respondedores iniciales.

Participación y escalada

Un plan de participación especifica a quiénes se debe enviar una notificación para cada incidente único. Puede especificar contactos individuales que haya añadido a Incident Manager o especificar un horario de guardia que haya creado en Incident Manager. Los planes de participación también especifican una ruta de escalada para ayudar a garantizar la visibilidad entre las partes interesadas y la participación activa durante el proceso de respuesta a incidentes.

Horarios de guardia

Un horario de guardia en Incident Manager consta de una o más rotaciones que usted crea para el horario. Para cada rotación, puede incluir hasta 30 contactos. El horario de guardia, al añadirlo a un plan de escalada o de respuesta, define a quién se notifica al producirse un incidente que requiera la intervención de un respondedor. Los horarios de guardia le permiten asegurarse de que dispone de una cobertura completa, redundante e ininterrumpida (24/7) según sea necesario para su respuesta a incidentes.

Colaboración activa

Los respondedores de incidentes responden activamente a los incidentes a través de la integración con el cliente de AWS Chatbot. AWS Chatbot admite la creación de canales de chat para Incident Manager que utilicen Slack, Microsoft Teams o Amazon Chime. Los respondedores pueden comunicar directamente entre sí, recibir notificaciones automáticas sobre incidentes y, en Slack y Microsoft Teams, ejecutar directamente algunas operaciones de la interfaz de la línea de comandos (CLI) de Incident Manager.

Diagnóstico de incidentes

Los respondedores pueden ver información actualizada en la consola de Incident Manager durante un incidente. En función de los cambios en la información, los respondedores pueden crear elementos de seguimiento y corregirlos mediante manuales de procedimientos de automatización.

Resultados de otros servicios

Para apoyar el diagnóstico de incidentes de los respondedores, puede habilitar la característica Resultados en Incident Manager. Los resultados son información sobre implementaciones de AWS CodeDeploy y actualizaciones de la pila de AWS CloudFormation que se produjeron alrededor del momento de un incidente y que implicaron a uno o más recursos probablemente relacionados con el incidente. Disponer de esta información reduce el tiempo necesario para evaluar las causas potenciales, lo que puede reducir el tiempo medio de recuperación (MTTR) de un incidente.

Análisis post-incidente

Una vez resuelto un incidente, utilice un análisis post-incidente para identificar mejoras en su respuesta a incidentes, incluyendo el tiempo de detección y mitigación. Un análisis también puede ayudarle a comprender la causa raíz de los incidentes. Incident Manager crea elementos de acción de seguimiento recomendados que puede utilizar para mejorar su respuesta a los incidentes.

Beneficios del uso de Incident Manager

Obtenga información sobre los beneficios que brinda Incident Manager en sus operaciones de detección y respuesta a incidentes.

En esta sección se describen los beneficios que su organización puede obtener al implementar un plan de respuesta con Incident Manager.

Diagnóstico de problemas de manera eficaz e inmediata

Las alarmas de Amazon CloudWatch y los eventos de Amazon EventBridge que configure pueden crear incidentes automáticamente al producirse cualquier interrupción imprevista o reducción de calidad de sus servicios.

Las alarmas de CloudWatch detectan e informan al producirse cambios en el valor de la métrica o expresión en relación con un umbral a lo largo de una serie de periodos de tiempo. Los eventos de EventBridge se crean como resultado de un cambio en un entorno, aplicación o servicio que haya especificado en una regla de EventBridge. Al crear una alarma o un evento, puede especificar una acción para que se cree un incidente en Incident Manager y el plan de respuesta apropiado para facilitar el afrontamiento, la escalada y la mitigación del incidente.

Incident Manager ofrece la posibilidad de recopilar y realizar un seguimiento automático de las métricas relacionadas con un incidente, mediante el uso de las métricas de CloudWatch. Además de las métricas automatizadas generadas para el incidente que este crea a través de una alarma de CloudWatch, puede añadir métricas manualmente en tiempo real a fin de proporcionar contexto y datos adicionales a los respondedores en un incidente.

Utilice la línea temporal de incidentes de Incident Manager para mostrar los puntos de interés en orden cronológico. Los respondedores también pueden utilizar la línea temporal para añadir eventos personalizados que describan lo que hicieron o lo que ocurrió. Los puntos de interés automatizados incluyen:

  • Una alarma de CloudWatch o una regla de EventBridge crea un incidente.

  • Las métricas de los incidentes se comunican a Incident Manager.

  • Los respondedores participan.

  • Los pasos del manual de procedimientos se completan con éxito.

Participación eficaz

Incident Manager reúne a los respondedores de incidentes mediante el uso de contactos, horarios de guardia, planes de escalada y canales de chat. Usted define los contactos individuales directamente en Incident Manager y especifica las preferencias de contacto (correo electrónico, SMS o voz). Usted añade contactos a las rotaciones de los planes de guardia para determinar quién está encargado de atender las incidencias durante un periodo determinado. Al utilizar los contactos definidos y los horarios de guardia, usted crea planes de escalada para involucrar a los respondedores necesarios en el momento adecuado durante un incidente.

Colaboración en tiempo real

La comunicación durante un incidente es el elemento clave para una resolución más rápida. Mediante un cliente de AWS Chatbot configurado para utilizar Slack, Microsoft Teams o Amazon Chime, puede reunir a los respondedores en su canal de chat conectado preferido, donde interactúan directamente con el incidente y entre sí. Incident Manager también muestra las acciones en tiempo real de los respondedores de incidentes en el canal de chat, proporcionando contexto a los demás.

Automatización del restablecimiento del servicio

Incident Manager permite a sus respondedores centrarse en las tareas clave necesarias para resolver un incidente mediante el uso de manuales de procedimientos automatizados. En Incident Manager, los manuales de procedimientos son una serie de acciones predefinidas para resolver un incidente. Combinan la potencia de las tareas automatizadas con pasos manuales según sea necesario, lo que da a los respondedores más disponibilidad para analizar y responder al impacto.

Prevención de futuros incidentes

Mediante el análisis post-incidente de Incident Manager, su equipo puede desarrollar planes de respuesta más sólidos y efectuar cambios en todas sus aplicaciones para prevenir futuros incidentes y tiempos de inactividad. El análisis post-incidente también permite el aprendizaje iterativo y la mejora de los manuales de procedimientos, los planes de respuesta y las métricas.

Incident Manager se integra con varios otros Servicios de AWS y servicios de terceros y herramientas para ayudarle a detectar y resolver incidentes, y para interactuar con sus operaciones de la API de forma indirecta y administrar la infraestructura. Para obtener información, consulte Integraciones de productos y servicios con Incident Manager.

Acceso a Incident Manager

Puede acceder a Incident Manager de cualquiera de las siguientes formas:

Regiones y cuotas de Incident Manager

Incident Manager no es compatible en todas las Regiones de AWS admitidas por Systems Manager.

Para obtener información sobre regiones y cuotas de Incident Manager, consulte Puntos de conexión y cuotas de AWS Systems Manager Incident Manager en Referencia general de Amazon Web Services.

Precios de Incident Manager

El uso de Incident Manager tiene un costo. Para obtener más información, consulte Precios de AWS Systems Manager.

nota

Otros Servicios de AWS, contenidos de AWS y contenidos de terceros puestos a disposición en relación con este servicio podrían estar sujetos a cargos por separado y regirse por términos adicionales.

Para obtener una descripción general de Trusted Advisor, un servicio que le ayuda a optimizar los costos, la seguridad y el rendimiento de su entorno de AWS, consulte AWS Trusted Advisor en la Guía del usuario de AWS Support.