Recuperación automática de instancia - Amazon Elastic Compute Cloud

Recuperación automática de instancia

importante

Esta sección describe cómo configurar de forma proactiva los mecanismos de recuperación en una instancia de EC2. Estos mecanismos de recuperación están diseñados para restaurar la disponibilidad de la instancia cuando AWS detecta un problema de hardware o software subyacente que provoca un error en la comprobación del estado del sistema. Si actualmente tiene dificultades para acceder a la instancia, consulte Solución de problemas con las instancias de EC2.

En caso de que AWS detecte una instancia que no está disponible debido a un problema de hardware subyacente, existen dos mecanismos capaces de restablecer la disponibilidad de la instancia automáticamente: la recuperación automática simplificada y la recuperación basada en acciones de Amazon CloudWatch. La restauración de la disponibilidad de una instancia también se denomina recuperación de la instancia.

Durante el proceso de recuperación de la instancia, AWS intentará trasladarla del host con el problema de hardware o software subyacente a un host diferente. Si se realiza correctamente, el proceso de recuperación de la instancia se interpretará como un reinicio no planificado. Puede comprobar la instancia se ha recuperado.

Si el proceso de recuperación no se realiza correctamente, es posible que la instancia se mantenga en ejecución en el host con el problema de hardware o software subyacente. En este caso, se requiere intervención manual. Si no se puede acceder a la instancia o la comprobación del estado del sistema no deja de dar errores se recomienda detener e iniciar la instancia manualmente. Cuando se inicia una instancia, normalmente se migra a un nuevo equipo host subyacente. Sin embargo, a diferencia de la recuperación automática de instancias, donde la instancia conserva su dirección IPv4 pública, una instancia reiniciada recibe una nueva dirección IPv4 pública, a menos que tenga una dirección IP elástica.

Para aprovechar los mecanismos de recuperación automática, estos se deben configurar previamente en una instancia antes de que se produzca un error en la comprobación del estado del sistema. De forma predeterminada, la recuperación automática simplificada se activa durante la inicialización de la instancia. Si lo desea, puede configurar la recuperación basada en acciones de Amazon CloudWatch tras la inicialización. La configuración de uno de estos mecanismos hace que la instancia adquiera una mayor resiliencia.

La recuperación automática simplificada y la recuperación basada en acciones de Amazon CloudWatch solo se encuentran disponibles en instancias compatibles. Para obtener más información, consulte Requisitos para habilitar la recuperación automática simplificada y Requisitos para habilitar la recuperación basada en acciones de CloudWatch.

aviso

Cuando AWS recupera la instancia debido a un problema de hardware o software subyacente, es importante tener en cuenta las siguientes consecuencias: los datos almacenados en la memoria volátil (RAM) se perderán, y el tiempo de actividad del sistema operativo se reiniciará desde cero. Además, con la recuperación basada en acciones de CloudWatch, también se perderán los datos de los volúmenes del almacén de instancias. Para ayudar a evitar la pérdida de datos, le recomendamos que cree copias de seguridad de los datos valiosos con regularidad. Para obtener más información sobre las prácticas recomendadas en cuanto a las copias de seguridad y la recuperación para las instancias de EC2, consulte las Prácticas recomendadas de Amazon EC2.

Los mecanismos de recuperación automática de instancias están diseñados para instancias individuales. Para obtener orientación sobre cómo crear un sistema resiliente, consulte Cree un sistema resiliente.

Conceptos clave de la recuperación automática de instancias

La recuperación automática de instancias es una característica de Amazon EC2 que restaura automáticamente la disponibilidad de las instancias cuando se producen fallos en el hardware o software subyacentes, lo que mejora la resiliencia y la fiabilidad de las instancias de EC2.

Estos son los conceptos clave de la recuperación automática de instancias:

Opciones de configuración

Se pueden configurar dos mecanismos para admitir la recuperación automática de instancias:

Comprobaciones de estado de sistemas

Las comprobaciones de estado del sistema supervisan automáticamente la infraestructura de AWS en la que se ejecuta la instancia de EC2.

  • Si se produce un error en la comprobación del estado del sistema, AWS inicia la recuperación automática de la instancia, que intenta migrar la instancia afectada a un hardware diferente.

  • Una comprobación del estado del sistema fallida señala un problema relacionado con el hardware o el software del host, no con la instancia en sí. La recuperación automática de instancias permite recuperar una instancia que no haya superado una comprobación del estado del sistema. Sin embargo, la recuperación automática de instancias no funciona si solo se produce un error en la comprobación del estado de la instancia.

  • Para ver las diferencias entre las comprobaciones de estado de las instancias y las del sistema, consulte Tipos de comprobaciones de estado.

Ejemplos de problemas subyacentes de hardware o software

Los problemas de hardware o software que pueden causar un fallo en una comprobación del estado del sistema incluyen la pérdida de conectividad de red, la pérdida de energía del sistema, problemas de software en el host físico y problemas de hardware en el host físico que afectan la accesibilidad de la red.

Características de las instancias recuperadas

Una instancia recuperada es idéntica a la instancia original, excepto en lo que respecta a los elementos perdidos.

Elementos conservados:

  • ID de instancia

  • Direcciones IP públicas, privadas y elásticas

  • Metadatos de instancia

  • Grupo de ubicación

  • Volúmenes de EBS adjuntos

  • Zona de disponibilidad

Elementos perdidos:

  • Datos almacenados en la memoria volátil (RAM)

  • Datos almacenados en los volúmenes del almacén de instancias (solo se aplica a la recuperación basada en acciones de CloudWatch)

  • El tiempo de actividad del sistema operativo se restablece a cero

Supervisión de las comprobaciones de estado del sistema con CloudWatch

La métrica StatusCheckFailed_System de CloudWatch indica si se ha superado o no una comprobación de estado del sistema.

Valores de la métrica:

  • 0: se superó la comprobación del estado del sistema.

  • 1: no se superó la comprobación del estado del sistema.

Eventos en AWS Health Dashboard

Durante los intentos de recuperación automática de instancias, AWS envía los eventos al AWS Health Dashboard en función del mecanismo de recuperación configurado y su resultado:

  • Recuperación automática simplificada

    • Evento correcto: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_SUCCESS

    • Evento de error: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_FAILURE

  • Recuperación basada en acciones de Amazon CloudWatch

    • Evento correcto: AWS_EC2_INSTANCE_AUTO_RECOVERY_SUCCESS

    • Evento de error: AWS_EC2_INSTANCE_AUTO_RECOVERY_FAILURE

Diferencias entre la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch

En la siguiente tabla se comparan las principales diferencias entre la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch.

Punto de comparación Recuperación automática simplificada Recuperación basada en acciones de Amazon CloudWatch
Configuración Habilitada de forma predeterminada en las instancias compatibles Requiere la configuración manual de alarmas y acciones de CloudWatch
Flexibilidad Comportamiento de recuperación fijo establecido por AWS Acciones y condiciones personalizables
Notificación Notificaciones básicas a través de AWS Health Dashboard Notificaciones personalizables a través de SNS
Tamaño de instancia metal Excluido Incluido
Los volúmenes del almacén de instancias se asocian durante la inicialización No se admite en las instancias que asocian volúmenes de almacenes de instancias durante la inicialización Se admite en tipos de instancias seleccionados. Tenga en cuenta que los datos en volúmenes de almacenes de instancias se pierden durante la recuperación de instancias.
Tiempo de recuperación Intento de recuperación estándar Intentos de recuperación más rápidos que la recuperación automática simplificada
Costo Sin costos adicionales Podría incurrir en cargos correspondientes a CloudWatch

Cree un sistema resiliente

Si bien la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch resultan eficaces a la hora de mantener la disponibilidad de las instancias individuales, AWS recomienda implementar una arquitectura de alta disponibilidad que permita la conmutación por error del tráfico a instancias en buen estado.

Para ello, considere la posibilidad de utilizar servicios de AWS, como Elastic Load Balancing (que distribuye el tráfico entrante entre varias instancias de EC2) y Amazon EC2 Auto Scaling (que ajusta automáticamente la cantidad de instancias en función de la demanda y el estado).

Para obtener más información sobre cómo crear un sistema resiliente y tolerante a errores con instancias de EC2, consulte los siguientes recursos: