Conceptos clave de la recuperación automática de instancias Diferencias entre la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch Cree un sistema resiliente

Recuperación automática de instancia

importante

Esta sección describe cómo configurar de forma proactiva los mecanismos de recuperación en una instancia de EC2. Estos mecanismos de recuperación están diseñados para restaurar la disponibilidad de la instancia cuando AWS detecta un problema de hardware o software subyacente que provoca un error en la comprobación del estado del sistema. Si actualmente tiene dificultades para acceder a la instancia, consulte Solución de problemas con las instancias de EC2.

En caso de que AWS detecte una instancia que no está disponible debido a un problema de hardware subyacente, existen dos mecanismos capaces de restablecer la disponibilidad de la instancia automáticamente: la recuperación automática simplificada y la recuperación basada en acciones de Amazon CloudWatch. La restauración de la disponibilidad de una instancia también se denomina recuperación de la instancia.

Durante el proceso de recuperación de la instancia, AWS intentará trasladarla del host con el problema de hardware o software subyacente a un host diferente. Si se realiza correctamente, el proceso de recuperación de la instancia se interpretará como un reinicio no planificado. Puede comprobar la instancia se ha recuperado.

Si el proceso de recuperación no se realiza correctamente, es posible que la instancia se mantenga en ejecución en el host con el problema de hardware o software subyacente. En este caso, se requiere intervención manual. Si no se puede acceder a la instancia o la comprobación del estado del sistema no deja de dar errores se recomienda detener e iniciar la instancia manualmente. Cuando se inicia una instancia, normalmente se migra a un nuevo equipo host subyacente. Sin embargo, a diferencia de la recuperación automática de instancias, donde la instancia conserva su dirección IPv4 pública, una instancia reiniciada recibe una nueva dirección IPv4 pública, a menos que tenga una dirección IP elástica.

Para aprovechar los mecanismos de recuperación automática, estos se deben configurar previamente en una instancia antes de que se produzca un error en la comprobación del estado del sistema. De forma predeterminada, la recuperación automática simplificada se activa durante la inicialización de la instancia. Si lo desea, puede configurar la recuperación basada en acciones de Amazon CloudWatch tras la inicialización. La configuración de uno de estos mecanismos hace que la instancia adquiera una mayor resiliencia.

La recuperación automática simplificada y la recuperación basada en acciones de Amazon CloudWatch solo se encuentran disponibles en instancias compatibles. Para obtener más información, consulte Requisitos para habilitar la recuperación automática simplificada y Requisitos para habilitar la recuperación basada en acciones de CloudWatch.

aviso

Cuando AWS recupera la instancia debido a un problema de hardware o software subyacente, es importante tener en cuenta las siguientes consecuencias: los datos almacenados en la memoria volátil (RAM) se perderán y el tiempo de actividad del sistema operativo se reiniciará desde cero. Además, con la recuperación basada en acciones de CloudWatch, también se perderán los datos de los volúmenes del almacén de instancias. Para ayudar a evitar la pérdida de datos, le recomendamos que cree copias de seguridad de los datos valiosos con regularidad. Para obtener más información sobre las prácticas recomendadas en cuanto a las copias de seguridad y la recuperación para las instancias de EC2, consulte las Prácticas recomendadas de Amazon EC2.

Los mecanismos de recuperación automática de instancias están diseñados para instancias individuales. Para obtener orientación sobre cómo crear un sistema resiliente, consulte Cree un sistema resiliente.

Temas

Conceptos clave de la recuperación automática de instancias

La recuperación automática de instancias es una característica de Amazon EC2 que restaura automáticamente la disponibilidad de las instancias cuando se producen fallos en el hardware o software subyacentes, lo que mejora la resiliencia y la fiabilidad de las instancias de EC2.

Estos son los conceptos clave de la recuperación automática de instancias:

Opciones de configuración

Se pueden configurar dos mecanismos para admitir la recuperación automática de instancias:

Recuperación automática simplificada: habilitada de forma predeterminada en las instancias compatibles.
Recuperación basada en acciones de CloudWatch: requiere una configuración manual en las instancias compatibles.

Comprobaciones de estado de sistemas

Las comprobaciones de estado del sistema supervisan automáticamente la infraestructura de AWS en la que se ejecuta la instancia de EC2.

Si se produce un error en la comprobación del estado del sistema, AWS inicia la recuperación automática de la instancia, que intenta migrar la instancia afectada a un hardware diferente.
Una comprobación del estado del sistema fallida señala un problema relacionado con el hardware o el software del host, no con la instancia en sí. La recuperación automática de instancias permite recuperar una instancia que no haya superado una comprobación del estado del sistema. Sin embargo, la recuperación automática de instancias no funciona si solo se produce un error en la comprobación del estado de la instancia.
Para ver las diferencias entre las comprobaciones de estado de las instancias y las del sistema, consulte Tipos de comprobaciones de estado.

Ejemplos de problemas subyacentes de hardware o software

Los problemas de hardware o software que pueden causar un fallo en una comprobación del estado del sistema incluyen la pérdida de conectividad de red, la pérdida de energía del sistema, problemas de software en el host físico y problemas de hardware en el host físico que afectan la accesibilidad de la red.

Características de las instancias recuperadas

Una instancia recuperada es idéntica a la instancia original, excepto en lo que respecta a los elementos perdidos.

Elementos conservados:

ID de instancia
Direcciones IP públicas, privadas y elásticas
Metadatos de instancia
Grupo de ubicación
Volúmenes de EBS adjuntos
Zona de disponibilidad

Elementos perdidos:

Datos almacenados en la memoria volátil (RAM)
Datos almacenados en los volúmenes del almacén de instancias (solo se aplica a la recuperación basada en acciones de CloudWatch)
El tiempo de actividad del sistema operativo se restablece a cero

Supervisión de las comprobaciones de estado del sistema con CloudWatch

La métrica StatusCheckFailed_System de CloudWatch indica si se ha superado o no una comprobación de estado del sistema.

Valores de la métrica:

0: se superó la comprobación del estado del sistema.
1: no se superó la comprobación del estado del sistema.

Eventos en Panel de estado

Durante los intentos de recuperación automática de instancias, AWS envía los eventos al Panel de estado en función del mecanismo de recuperación configurado y su resultado:

Recuperación automática simplificada
- Evento correcto: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_SUCCESS
- Evento de error: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_FAILURE
Recuperación basada en acciones de Amazon CloudWatch
- Evento correcto: AWS_EC2_INSTANCE_AUTO_RECOVERY_SUCCESS
- Evento de error: AWS_EC2_INSTANCE_AUTO_RECOVERY_FAILURE

Diferencias entre la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch

En la siguiente tabla se comparan las principales diferencias entre la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch.

Punto de comparación	Recuperación automática simplificada	Recuperación basada en acciones de Amazon CloudWatch
Configuración	Habilitada de forma predeterminada en las instancias compatibles	Requiere la configuración manual de alarmas y acciones de CloudWatch
Flexibilidad	Comportamiento de recuperación fijo establecido por AWS	Acciones y condiciones personalizables
Notificación	Notificaciones básicas a través de Panel de estado	Notificaciones personalizables a través de SNS
Tamaño de instancia metal	Excluido	Incluido
Los volúmenes del almacén de instancias se asocian durante la inicialización	No se admite en las instancias que asocian volúmenes de almacenes de instancias durante la inicialización	Se admite en tipos de instancias seleccionados. Tenga en cuenta que los datos en volúmenes de almacenes de instancias se pierden durante la recuperación de instancias.
Tiempo de recuperación	Intento de recuperación estándar	Intentos de recuperación más rápidos que la recuperación automática simplificada
El problema del host se resuelve durante la migración	Es posible que la migración se cancele y la instancia permanezca en el host original	La migración continúa a un nuevo host
Coste	Sin costos adicionales	Podría incurrir en cargos correspondientes a CloudWatch

Cree un sistema resiliente

Si bien la recuperación automática simplificada y la recuperación basada en acciones de CloudWatch resultan eficaces a la hora de mantener la disponibilidad de las instancias individuales, AWS recomienda implementar una arquitectura de alta disponibilidad que permita la conmutación por error del tráfico a instancias en buen estado.

Para ello, considere la posibilidad de utilizar servicios de AWS, como Elastic Load Balancing (que distribuye el tráfico entrante entre varias instancias de EC2) y Amazon EC2 Auto Scaling (que ajusta automáticamente la cantidad de instancias en función de la demanda y el estado).

Para obtener más información sobre cómo crear un sistema resiliente y tolerante a errores con instancias de EC2, consulte los siguientes recursos:

Back to Basics: Designing for Failure with EC2 en el canal de YouTubede AWS
Arquitectura de recuperación ante desastres (DR) en AWS, parte I: estrategias de recuperación en la nube en el sitio del Blog de arquitectura de AWS
Guía del usuario del equilibrador de carga de aplicación
Guía del usuario de Amazon EC2 Auto Scaling
WelREL11-BP02 Conmutación por error a recursos en buen estado en el Pilar de fiabilidad de AWS Well-Architected Framework

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Retirar

Compruebe si se produjo una recuperación automática