Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
¿Qué es Administrador de incidentes de AWS Systems Manager?
Incident Manager, una herramienta incluida AWS Systems Manager, está diseñada para ayudarlo a mitigar los incidentes que afecten a sus aplicaciones alojadas y a recuperarse de ellos AWS.
En este contexto AWS, un incidente es cualquier interrupción o reducción no planificada de la calidad de los servicios que puede tener un impacto significativo en las operaciones comerciales. Por lo tanto, es esencial que las organizaciones establezcan una estrategia de respuesta de mitigación y recuperación eficaz ante incidentes e implementen acciones para prevenirlos en el futuro.
Para ayudar a reducir el tiempo de resolución de incidentes, Incident Manager:
-
Proporciona planes automatizados que involucra de manera eficiente a las personas responsables de responder a los incidentes.
-
Proporciona datos relevantes para la solución de problemas.
-
Habilita acciones de respuesta automatizadas mediante manuales de procedimientos de automatización predefinidos.
-
Proporciona métodos para colaborar y comunicar con todas las partes interesadas.
Las características y los flujos de trabajo integrados en Incident Manager se basan en las prácticas recomendadas de respuesta a incidentes que Amazon ha venido desarrollando casi desde su creación. Incident Manager se integra con Amazon CloudWatch AWS CloudTrail, AWS Systems Manager, y Amazon EventBridge. Servicios de AWS
Componentes y características principales
En esta sección se describen las características de Incident Manager que usted utiliza para configurar sus planes de respuesta a incidentes.
- Plan de respuesta
-
Un plan de respuesta funciona como una plantilla que define lo que se debe establecer al producirse un incidente. Incluye información como:
-
Quién debe responder al producirse un incidente.
-
La respuesta automatizada establecida para mitigar el incidente.
-
La herramienta de colaboración que los respondedores deben utilizar para comunicar y recibir notificaciones automáticas sobre el incidente.
-
- Detección de incidentes
-
Puede configurar CloudWatch las alarmas de Amazon y EventBridge los eventos de Amazon para crear incidentes cuando se detecten condiciones o cambios que afecten a sus AWS recursos.
- Soporte de automatización de manuales de procedimientos
-
Puede iniciar manuales de procedimientos de automatización desde Incident Manager para automatizar su respuesta crítica a los incidentes y proporcionar pasos detallados a los respondedores iniciales.
- Participación y escalada
-
Un plan de participación especifica a quiénes se debe enviar una notificación para cada incidente único. Puede especificar contactos individuales que haya añadido a Incident Manager o especificar un horario de guardia que haya creado en Incident Manager. Los planes de participación también especifican una ruta de escalada para ayudar a garantizar la visibilidad entre las partes interesadas y la participación activa durante el proceso de respuesta a incidentes.
- Horarios de guardia
-
Un horario de guardia en Incident Manager consta de una o más rotaciones que usted crea para el horario. Para cada rotación, puede incluir hasta 30 contactos. El horario de guardia, al añadirlo a un plan de escalada o de respuesta, define a quién se notifica al producirse un incidente que requiera la intervención de un respondedor. Los horarios de guardia le permiten asegurarse de que dispone de una cobertura completa, redundante e ininterrumpida (24/7) según sea necesario para su respuesta a incidentes.
- Colaboración activa
-
El personal de respuesta a incidentes responde activamente a los incidentes mediante la integración con Amazon Q Developer en el cliente de aplicaciones de chat. Amazon Q Developer en aplicaciones de chat admite la creación de canales de chat para Incident Manager que utilizan Slack, Microsoft Teams, o Amazon Chime. Los socorristas pueden comunicarse directamente entre sí, recibir notificaciones automáticas sobre los incidentes y... Slack y Microsoft Teams—ejecute directamente algunas operaciones de la interfaz de línea de comandos (CLI) de Incident Manager.
- Diagnóstico de incidentes
-
El personal de respuesta puede ver la up-to-date información en la consola de Incident Manager durante un incidente. En función de los cambios en la información, los respondedores pueden crear elementos de seguimiento y corregirlos mediante manuales de procedimientos de automatización.
- Resultados de otros servicios
-
Para apoyar el diagnóstico de incidentes de los respondedores, puede habilitar la característica Resultados en Incident Manager. Los resultados son información sobre AWS CodeDeploy las implementaciones y las actualizaciones de la AWS CloudFormation pila que se produjeron alrededor del momento de un incidente y que implicaron uno o más recursos probablemente relacionados con el incidente. Disponer de esta información reduce el tiempo necesario para evaluar las causas potenciales, lo que puede reducir el tiempo medio de recuperación (MTTR) de un incidente.
- Análisis post-incidente
-
Una vez resuelto un incidente, utilice un análisis post-incidente para identificar mejoras en su respuesta a incidentes, incluyendo el tiempo de detección y mitigación. Un análisis también puede ayudarle a comprender la causa raíz de los incidentes. Incident Manager crea elementos de acción de seguimiento recomendados que puede utilizar para mejorar su respuesta a los incidentes.
Beneficios del uso de Incident Manager
Obtenga información sobre los beneficios que brinda Incident Manager en sus operaciones de detección y respuesta a incidentes.
En esta sección se describen los beneficios que su organización puede obtener al implementar un plan de respuesta con Incident Manager.
Diagnóstico de problemas de manera eficaz e inmediata
CloudWatch Las alarmas de Amazon y EventBridge los eventos de Amazon que configure pueden crear incidentes automáticamente cuando se produzca una interrupción no planificada o una reducción de la calidad de sus servicios.
CloudWatch las alarmas detectan e informan cuando se producen cambios en el valor de la métrica o expresión en relación con un umbral durante varios períodos de tiempo. EventBridge los eventos se crean como resultado de un cambio en un entorno, una aplicación o un servicio que se haya especificado en una EventBridge regla. Al crear una alarma o un evento, puede especificar una acción para que se cree un incidente en Incident Manager y el plan de respuesta apropiado para facilitar el afrontamiento, la escalada y la mitigación del incidente.
El administrador de incidentes permite recopilar y rastrear automáticamente las métricas relacionadas con un incidente mediante el uso de CloudWatch métricas. Además de las métricas automatizadas que se generan para el incidente cuando se crea mediante una CloudWatch alarma, puede añadir métricas manualmente en tiempo real para proporcionar contexto y datos adicionales a los responsables de un incidente.
Utilice la línea temporal de incidentes de Incident Manager para mostrar los puntos de interés en orden cronológico. Los respondedores también pueden utilizar la línea temporal para añadir eventos personalizados que describan lo que hicieron o lo que ocurrió. Los puntos de interés automatizados incluyen:
-
Una CloudWatch alarma o EventBridge regla crea un incidente.
-
Las métricas de los incidentes se comunican a Incident Manager.
-
Los respondedores participan.
-
Los pasos del manual de procedimientos se completan con éxito.
Participación eficaz
Incident Manager reúne a los respondedores de incidentes mediante el uso de contactos, horarios de guardia, planes de escalada y canales de chat. Usted define los contactos individuales directamente en Incident Manager y especifica las preferencias de contacto (correo electrónico, SMS o voz). Usted añade contactos a las rotaciones de los planes de guardia para determinar quién está encargado de atender las incidencias durante un periodo determinado. Al utilizar los contactos definidos y los horarios de guardia, usted crea planes de escalada para involucrar a los respondedores necesarios en el momento adecuado durante un incidente.
Colaboración en tiempo real
La comunicación durante un incidente es el elemento clave para una resolución más rápida. Uso de un Amazon Q Developer en un cliente de aplicaciones de chat configurado para usar Slack, Microsoft Teams, o Amazon Chime, puedes reunir a los socorristas en su canal de chat conectado preferido, donde interactúan directamente con el incidente y entre sí. Incident Manager también muestra las acciones en tiempo real de los respondedores de incidentes en el canal de chat, proporcionando contexto a los demás.
Automatización del restablecimiento del servicio
Incident Manager permite a sus respondedores centrarse en las tareas clave necesarias para resolver un incidente mediante el uso de manuales de procedimientos automatizados. En Incident Manager, los manuales de procedimientos son una serie de acciones predefinidas para resolver un incidente. Combinan la potencia de las tareas automatizadas con pasos manuales según sea necesario, lo que da a los respondedores más disponibilidad para analizar y responder al impacto.
Prevención de futuros incidentes
Mediante el análisis post-incidente de Incident Manager, su equipo puede desarrollar planes de respuesta más sólidos y efectuar cambios en todas sus aplicaciones para prevenir futuros incidentes y tiempos de inactividad. El análisis post-incidente también permite el aprendizaje iterativo y la mejora de los manuales de procedimientos, los planes de respuesta y las métricas.
Servicios relacionados
Incident Manager se integra con varios servicios Servicios de AWS y herramientas de otros fabricantes para ayudarle a detectar y resolver incidentes, así como a interactuar indirectamente con sus operaciones de API y gestionar la infraestructura. Para obtener más información, consulte Integraciones de productos y servicios con Incident Manager.
Acceso a Incident Manager
Puede acceder a Incident Manager de cualquiera de las siguientes formas:
-
AWS CLI: Para obtener información general, consulte Introducción a la AWS CLI en la Guía del usuario de AWS Command Line Interface . Para obtener información sobre los comandos de CLI para Incident Manager, consulte ssm-incidents y ssm-contactsen la Referencia de AWS CLI comandos.
-
API de Incident Manager: Para obtener más información, consulte la Referencia de la API de Administrador de incidentes de AWS Systems Manager.
-
AWS SDKs— Para obtener más información, consulte Herramientas sobre las que construir AWS
.
Regiones y cuotas de Incident Manager
Incident Manager no es compatible con todos los sistemas Regiones de AWS compatibles con Systems Manager.
Para obtener información sobre regiones y cuotas de Incident Manager, consulte Puntos de conexión y cuotas de Administrador de incidentes de AWS Systems Manager en Referencia general de Amazon Web Services.
Precios de Incident Manager
El uso de Incident Manager tiene un costo. Para obtener más información, consulte Precios de AWS Systems Manager
nota
El resto Servicios de AWS del AWS contenido y el contenido de terceros que estén disponibles en relación con este servicio pueden estar sujetos a cargos separados y regirse por condiciones adicionales.
Para obtener una descripción general de Trusted Advisor un servicio que le ayuda a optimizar los costos, la seguridad y el rendimiento de su AWS entorno, consulte AWS Trusted Advisorla Guía del AWS Support usuario.