Conceitos principais da recuperação automática de instâncias Diferenças entre a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch Crie um sistema resiliente

Recuperação automática de instâncias

Importante

Esta seção descreve como configurar proativamente os mecanismos de recuperação em uma instância do EC2. Esses mecanismos de recuperação são projetados para restaurar a disponibilidade da instância quando a AWS detecta um problema subjacente de hardware ou software que faz com que a verificação de status do sistema falhe. Se você estiver tendo problemas para acessar sua instância, consulte Solução de problemas de instâncias do EC2.

Caso a AWS detecte que uma instância não está disponível devido a um problema de hardware ou software subjacente, há dois mecanismos que podem restaurar automaticamente a disponibilidade da instância : a recuperação automática simplificada e a recuperação baseada em ações do Amazon CloudWatch. A restauração da disponibilidade da instância também é conhecida como recuperação da instância.

Durante o processo de recuperação da instância, a AWS tentará mover sua instância do host com o problema de hardware ou software subjacente para um host diferente. Caso obtenha êxito, o processo de recuperação aparecerá para a instância como uma reinicialização não planejada. É possível verificar se a recuperação da instância ocorreu.

Se o processo de recuperação não for obtive êxito, a instância poderá continuar em execução no host com o problema subjacente de hardware ou software. Nesse caso será necessária uma intervenção manual. Se a instância se tornar inacessível ou se a verificação de status do sistema continuar a falhar, recomendamos que você pare e inicie manualmente a instância. Quando você inicia uma instância, ela é normalmente migrada para um novo computador host subjacente. No entanto, ao contrário da recuperação automática de instâncias, na qual a instância retém seu endereço IPv4 público, uma instância reinicializada recebe um endereço IPv4 público, a menos que tenha um endereço IP elástico.

Para se beneficiar dos mecanismos de recuperação automática, eles devem ser configurados com antecedência em uma instância antes que uma verificação do status do sistema indique falha. Por padrão, a recuperação automática simplificada é habilitada durante a execução da instância. Como opção, é possível configurar a recuperação baseada em ações do Amazon CloudWatch após a execução. Ter um desses mecanismos configurado torna sua instância mais resiliente.

A recuperação automática simplificada e a recuperação baseada em ações do Amazon CloudWatch só estão disponíveis em instâncias com suporte. Para obter mais informações, consulte Requisitos para a habilitação da recuperação automática simplificada e Requisitos para a habilitação da recuperação baseada em ações do CloudWatch.

Atenção

Quando a AWS recupera sua instância de um problema subjacente de hardware ou software, tenha em mente as seguintes consequências: os dados armazenados na memória volátil (RAM) serão perdidos e o tempo de atividade do sistema operacional recomeçará do zero. Além disso, com a recuperação baseada em ações do CloudWatch, os dados nos volumes de armazenamento de instância também serão perdidos. Para ajudar a se proteger contra a perda de dados, recomendamos que você crie regularmente backups de dados importantes. Para obter mais informações sobre as práticas recomendadas de backup e recuperação de instâncias do EC2, consulte Práticas recomendadas do Amazon EC2.

Os mecanismos automáticos de recuperação de instâncias são projetados para instâncias individuais. Para obter orientação sobre como criar um sistema resiliente, consulte Crie um sistema resiliente.

Tópicos

Conceitos principais da recuperação automática de instâncias

A recuperação automática de instâncias é um atributo do Amazon EC2 que restaura automaticamente a disponibilidade da instância quando ocorrem falhas subjacentes de hardware ou software, aprimorando a resiliência e a confiabilidade de suas instâncias do EC2.

A seguir estão os principais conceitos da recuperação automática de instâncias:

Opções de configuração

Dois mecanismos podem ser configurados para oferecer suporte à recuperação automática de instâncias:

Recuperação automática simplificada: habilitada por padrão em instâncias com suporte.
Recuperação baseada em ações do CloudWatch: requer configuração manual nas instâncias com suporte.

Verificações de status de sistema

As verificações de status do sistema monitoram automaticamente a infraestrutura da AWS na qual sua instância do EC2 é executada.

Se a verificação do status do sistema falhar, a AWS inicia a recuperação automática da instância, que tenta migrar a instância afetada para um hardware diferente.
Uma falha na verificação do status do sistema indica um problema com o hardware ou o software do host, e não um problema com a instância em si. A recuperação automática de instâncias pode recuperar uma instância que falhe na verificação do status do sistema. No entanto, a recuperação automática de instâncias não funcionará se somente a verificação do status da instância falhar.
Para ver as diferenças entre as verificações de status da instância e do sistema, consulte Tipos de verificações de status.

Exemplos de problemas subjacentes de hardware ou software

Os problemas de hardware ou software que podem causar a falha na verificação do status do sistema incluem perda de conectividade de rede, perda de energia do sistema, problemas de software no host físico e problemas de hardware no host físico que afetam a acessibilidade da rede.

Características das instâncias recuperadas

Uma instância recuperada é idêntica à instância original, exceto pelos elementos que são perdidos.

Elementos preservados:

ID da instância
seus endereços IP públicos, privados e elásticos;
Metadados da instância
Grupo de posicionamento
volumes do EBS associados.
Zona de disponibilidade

Elementos perdidos:

Dados armazenados na memória volátil (RAM)
Dados armazenados em volumes de armazenamento de instâncias (aplicável somente à recuperação baseada em ações do CloudWatch)
O tempo de atividade do sistema operacional é redefinido para zero

Monitoramento de verificações de status do sistema com o CloudWatch

A métrica StatusCheckFailed_System no CloudWatch indica se uma verificação de status do sistema foi aprovada ou falhou.

Valores da métrica:

0: a verificação de status do sistema foi aprovada.
1: a verificação de status do sistema falhou.

Eventos no Health Dashboard

Durante as tentativas automáticas de recuperação da instância, a AWS envia eventos para seu Health Dashboard com base no mecanismo de recuperação configurado e no resultado:

Recuperação automática simplificada
- Evento de êxito: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_SUCCESS
- Evento de falha: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_FAILURE
Recuperação baseada em ações do CloudWatch
- Evento de êxito: AWS_EC2_INSTANCE_AUTO_RECOVERY_SUCCESS
- Evento de falha: AWS_EC2_INSTANCE_AUTO_RECOVERY_FAILURE

Diferenças entre a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch

A tabela a seguir compara as principais diferenças entre a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch.

Ponto de comparação	Recuperação automática simplificada	Recuperação baseada em ações do CloudWatch
Configuração	Habilitada por padrão nas instâncias com suporte	Requer configuração manual dos alarmes e ações do CloudWatch
Flexibilidade	Comportamento fixo de recuperação gerenciado pela AWS	Ações e condições personalizáveis
Notificação	Notificações básicas por meio do Health Dashboard	Notificações personalizáveis por meio do SNS
Tamanho da instância metal	Excluído	Incluído
Volumes de armazenamento de instância anexados na execução.	Sem suporte para instâncias que anexam volumes de armazenamento de instância na execução	Com suporte em tipos de instância selecionados. Observe que os dados nos volumes de armazenamento de instância são perdidos durante a recuperação da instância.
Tempo de recuperação	Tentativa de recuperação padrão	Tentativas de recuperação mais rápidas do que a recuperação automática simplificada
O problema do host é solucionado durante a migração	A migração pode ser cancelada, e a instância permanece no host original	A migração continua para um novo host
Custo	Sem custo adicional	Pode incorrer em cobranças do CloudWatch

Crie um sistema resiliente

Embora a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch sejam eficazes para manter a disponibilidade de instâncias individuais, a AWS recomenda a implementação de uma arquitetura de alta disponibilidade que permita o failover do tráfego para instâncias íntegras.

Para conseguir isso, considere usar serviços da AWS como o Elastic Load Balancing (que distribui o tráfego de entrada em várias instâncias do EC2) e o Amazon EC2 Auto Scaling (que ajusta automaticamente o número de instâncias com base na demanda e na integridade).

Para obter mais informações sobre a criação de um sistema resiliente e tolerante a falhas com instâncias do EC2, consulte os recursos a seguir:

De volta ao básico: projetando para falhas com o EC2 no canal AWS do YouTube
Arquitetura de recuperação de desastres (DR) na AWS, parte I: estratégias de recuperação na nuvem no site do Blog de Arquitetura da AWS.
Guia do usuário de Application Load Balancers
Guia do usuário do Amazon EC2 Auto Scaling
REL11-BP02 failover para recursos íntegros no Pilar de confiabilidade do AWS Well-Architected Framework

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Retirada

Verificar se ocorreu a recuperação automática