Realización de un análisis post-incidente en Incident Manager - Incident Manager

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Realización de un análisis post-incidente en Incident Manager

El análisis post-incidente le guía en la identificación de mejoras en su respuesta a incidentes, incluyendo el tiempo de detección y mitigación. Un análisis también puede ayudarle a comprender la causa raíz de los incidentes. Incident Manager crea elementos de acción recomendados para mejorar su respuesta ante incidentes.

Beneficios de un análisis post-incidente
  • Mejora de la respuesta ante incidentes

  • Comprensión de la causa raíz del problema

  • Afrontamiento de las causas raíz con elementos de acción factibles

  • Análisis del impacto de los incidentes

  • Captación y difusión de conocimientos dentro de una organización

Para qué no se debe utilizar un análisis

Un análisis es irreprochable y no llama a las personas por su nombre.

“Independientemente de lo que descubramos, entendemos y creemos de verdad que todo el mundo hizo el mejor trabajo posible, teniendo en cuenta lo que sabía en ese momento, sus habilidades y capacidades, los recursos disponibles y la situación en cuestión”. - Norm Kerth, Retrospectivas de proyectos: Un manual para la revisión en equipo

Detalles del análisis

La página de detalles del análisis le guía en la recopilación de información, la evaluación de mejoras y la creación de elementos de acción. La página de detalles del análisis es similar a la de detalles del incidente, pero tiene algunas diferencias clave, como las métricas históricas, la línea temporal editable y las preguntas para mejorar futuros incidentes.

Información general

Información general es un resumen del incidente. Este resumen incluye los antecedentes, lo que ocurrió, por qué ocurrió, cómo se mitigó, la duración y los elementos de acción clave para evitar que el incidente vuelva a ocurrir. La información general es de alto nivel. Puede explorar más detalles en la pestaña Preguntas del análisis.

Métricas

Utilice la pestaña de métricas para visualizar las métricas clave de su aplicación durante el periodo del incidente. Aquí puede añadir gráficos de métricas que tengan una o más métricas representadas en el mismo gráfico. Las métricas utilizadas durante un incidente se rellenan automáticamente en esta pestaña. Le recomendamos que añada una descripción, un título y anotaciones de los puntos temporales clave durante el incidente.

Algunos puntos temporales clave que puede tener en cuenta al analizar un gráfico de métricas:

  • Cambio de implementación

  • Cambio de configuración

  • Hora de inicio del incidente

  • Hora de la alarma

  • Hora de intervención

  • Hora de inicio de la mitigación

  • Hora de resolución del incidente

Limitaciones
  • CloudWatch las alarmas y las expresiones métricas no se importan de un incidente.

  • Las métricas que se encuentren en una región que Incident Manager no admita no se importan desde el incidente.

  • Las métricas en cuentas de la aplicación requieren la configuración del CloudWatch-CrossAccountSharingRole antes de crear el análisis. Para obtener más información sobre la función, consulte la CloudWatch consola multicuentas y regiones en la guía del CloudWatch usuario.

Plazo

Describa los puntos temporales clave en la línea temporal a medida que profundiza en la comprensión del incidente. La línea temporal de los incidentes se rellena automáticamente en esta pestaña. Puede eliminar los puntos temporales que no sean relevantes para el análisis. También puede añadir y editar puntos temporales para describir con mayor precisión el incidente y su impacto.

Utilice la pestaña de línea temporal para responder a las preguntas que encuentre en la pestaña Preguntas sobre la respuesta al incidente.

Preguntas

Utilice las preguntas de Incident Manager para mejorar el tiempo de resolución de incidentes en su aplicación y reducir la aparición de incidentes. A medida que responda a las preguntas, actualice las pestañas Métricas y Línea temporal para mejorar su exactitud. Las preguntas se centran en estos aspectos clave de la respuesta ante incidentes:

  • Detección: ¿Podría mejorar el tiempo de detección? ¿Existen actualizaciones de las métricas y alarmas que detectarían el incidente en menos tiempo?

  • Diagnóstico: ¿Puede mejorar el tiempo previo al diagnóstico? ¿Existen actualizaciones para sus planes de respuesta o planes de escalada que implicarían en menos tiempo a los respondedores correctos?

  • Mitigación: ¿Puede mejorar el tiempo previo a la mitigación? ¿Hay pasos del manual de procedimientos que podría añadir o mejorar?

  • Prevención: ¿Puede evitar que se produzcan futuros incidentes? Para descubrir las causas fundamentales de un incidente, Amazon utiliza el enfoque de los 5 porqués en la investigación de problemas.

Acciones

Incident Manager crea elementos de acción recomendados para que los revise a medida que completa las preguntas. Puede elegir aceptar y completar estas acciones desde esta pestaña o puede descartarlas. Puede revisar los elementos de acción descartados; para ello, elija Elementos de acción descartados. Los elementos de acción son un tipo de elementos OpsItem que están vinculados al análisis y al incidente. OpsCenter

Lista de comprobación

Antes de cerrar un análisis, utilice la lista de comprobación para revisar las acciones que un respondedor debería realizar. A medida que los respondedores completan las acciones de la lista de comprobación, el icono junto a la acción cambia de una elipse a una marca de verificación a fin de indicar que la acción se ha completado. Si no ha completado los elementos de la lista de comprobación, Incident Manager muestra un mensaje para confirmar que el respondedor desea cerrar el análisis sin completarlo.

Plantillas de análisis

Una plantilla de análisis proporciona un conjunto de preguntas que profundizan en la causa raíz de los incidentes. Puede utilizar las respuestas a estas preguntas para mejorar el rendimiento de la aplicación y la respuesta a los incidentes.

AWS plantilla estándar

Incident Manager proporciona una plantilla estándar de preguntas basada en las mejores prácticas de respuesta a AWS incidentes y análisis de problemas, tituladaAWSIncidents-PostIncidentAnalysisTemplate.

Creación de una plantilla de análisis

Le sugerimos que utilice la plantilla de AWSIncidents-PostIncidentAnalysisTemplate predeterminada y añada preguntas o secciones adicionales que sean apropiadas para sus casos de uso. Cree plantillas de análisis basadas en la plantilla predeterminada. Utilice esta plantilla como punto de partida para crear plantillas de análisis en su cuenta de administrador. A continuación, puede duplicar sus plantillas de análisis en cada región en la que haya habilitado Incident Manager.

Creación de una plantilla de análisis
  1. Invoque la acción GetDocument y utilice su parámetro Name para descargar AWSIncidents-PostIncidentAnalysisTemplate. Para obtener más información sobre la GetDocument sintaxis, consulte APIReferencia de Systems Manager.

  2. El contenido de la respuesta contiene los componentes JSON básicos del análisis. Utilice los bloques de construcción de preguntas para insertar preguntas adicionales en el análisis. Le recomendamos que añada preguntas o secciones en la sección Incident questions.

  3. Para crear la nueva plantilla, utilice la CreateDocument operación con la actualización JSON del paso anterior. Debe incluir lo siguiente, donde Analysis_Template_Name es el nombre de su plantilla,

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

Creación de un análisis

  1. Para crear un análisis, elija Crear análisis en la página de detalles del incidente de un incidente cerrado.

  2. Elija la plantilla de análisis a partir de la cual crear este análisis e introduzca un nombre descriptivo del análisis.

  3. Seleccione Crear.

Puede generar una copia de un análisis completo o incompleto formateado para impresión. También puede guardar esta copia comoPDF. Puede imprimir un análisis cada vez. Actualmente no se admite la impresión por lotes de múltiples análisis.

Para imprimir un análisis formateado
  1. Abra la consola de Incident Manager.

  2. Elija la pestaña Análisis.

  3. Elija el título del análisis que desee imprimir.

  4. En la esquina superior derecha de la página de detalles del análisis, elija Imprimir.

  5. En el cuadro de diálogo Imprimir análisis de incidente, desactive las secciones del análisis que no desee incluir en la versión impresa. De forma predeterminada, están seleccionadas todas las secciones.

  6. Elija Imprimir para abrir los controles de impresión locales de su dispositivo.

  7. Elija el destino o formato de impresión. Puede elegir una impresora local o de red, o puede guardar el análisis en unaPDF. Realice cualquier cambio, si lo desea, en las opciones de impresión restantes y, a continuación, elija Imprimir.

    nota

    Controles de impresión locales se refiere a la interfaz de usuario proporcionada por su navegador web y dispositivo.

    Destinos de impresión son aquellos configurados para su dispositivo y accesibles desde el mismo.