Recuperação automática de instâncias
Importante
Esta seção descreve como configurar proativamente os mecanismos de recuperação em uma instância do EC2. Esses mecanismos de recuperação são projetados para restaurar a disponibilidade da instância quando a AWS detecta um problema subjacente de hardware ou software que faz com que a verificação de status do sistema falhe. Se você estiver tendo problemas para acessar sua instância, consulte Solução de problemas de instâncias do EC2.
Caso a AWS detecte que uma instância não está disponível devido a um problema de hardware ou software subjacente, há dois mecanismos que podem restaurar automaticamente a disponibilidade da instância : a recuperação automática simplificada e a recuperação baseada em ações do Amazon CloudWatch. A restauração da disponibilidade da instância também é conhecida como recuperação da instância.
Durante o processo de recuperação da instância, a AWS tentará mover sua instância do host com o problema de hardware ou software subjacente para um host diferente. Caso obtenha êxito, o processo de recuperação aparecerá para a instância como uma reinicialização não planejada. É possível verificar se a recuperação da instância ocorreu.
Se o processo de recuperação não for obtive êxito, a instância poderá continuar em execução no host com o problema subjacente de hardware ou software. Nesse caso será necessária uma intervenção manual. Se a instância se tornar inacessível ou se a verificação de status do sistema continuar a falhar, recomendamos que você pare e inicie manualmente a instância. Quando você inicia uma instância, ela é normalmente migrada para um novo computador host subjacente. No entanto, ao contrário da recuperação automática de instâncias, na qual a instância retém seu endereço IPv4 público, uma instância reinicializada recebe um endereço IPv4 público, a menos que tenha um endereço IP elástico.
Para se beneficiar dos mecanismos de recuperação automática, eles devem ser configurados com antecedência em uma instância antes que uma verificação do status do sistema indique falha. Por padrão, a recuperação automática simplificada é habilitada durante a execução da instância. Como opção, é possível configurar a recuperação baseada em ações do Amazon CloudWatch após a execução. Ter um desses mecanismos configurado torna sua instância mais resiliente.
A recuperação automática simplificada e a recuperação baseada em ações do Amazon CloudWatch só estão disponíveis em instâncias com suporte. Para ter mais informações, consulte Requisitos para a habilitação da recuperação automática simplificada e Requisitos para a habilitação da recuperação baseada em ações do CloudWatch.
Atenção
Quando a AWS recupera sua instância de um problema subjacente de hardware ou software, tenha em mente as seguintes consequências: os dados armazenados na memória volátil (RAM) serão perdidos e o tempo de atividade do sistema operacional recomeçará do zero. Além disso, com a recuperação baseada em ações do CloudWatch, os dados nos volumes de armazenamento de instância também serão perdidos. Para ajudar a se proteger contra a perda de dados, recomendamos que você crie regularmente backups de dados importantes. Para obter mais informações sobre as práticas recomendadas de backup e recuperação de instâncias do EC2, consulte Práticas recomendadas do Amazon EC2.
Os mecanismos automáticos de recuperação de instâncias são projetados para instâncias individuais. Para obter orientação sobre como criar um sistema resiliente, consulte Crie um sistema resiliente.
Tópicos
Conceitos principais da recuperação automática de instâncias
A recuperação automática de instâncias é um atributo do Amazon EC2 que restaura automaticamente a disponibilidade da instância quando ocorrem falhas subjacentes de hardware ou software, aprimorando a resiliência e a confiabilidade de suas instâncias do EC2.
A seguir estão os principais conceitos da recuperação automática de instâncias:
- Opções de configuração
-
Dois mecanismos podem ser configurados para oferecer suporte à recuperação automática de instâncias:
-
Recuperação automática simplificada: habilitada por padrão em instâncias com suporte.
-
Recuperação baseada em ações do CloudWatch: requer configuração manual nas instâncias com suporte.
-
- Verificações de status de sistema
-
As verificações de status do sistema monitoram automaticamente a infraestrutura da AWS na qual sua instância do EC2 é executada.
-
Se a verificação do status do sistema falhar, a AWS inicia a recuperação automática da instância, que tenta migrar a instância afetada para um hardware diferente.
-
Uma falha na verificação do status do sistema indica um problema com o hardware ou o software do host, e não um problema com a instância em si. A recuperação automática de instâncias pode recuperar uma instância que falhe na verificação do status do sistema. No entanto, a recuperação automática de instâncias não funcionará se somente a verificação do status da instância falhar.
-
Para ver as diferenças entre as verificações de status da instância e do sistema, consulte Tipos de verificações de status.
-
- Exemplos de problemas subjacentes de hardware ou software
-
Os problemas de hardware ou software que podem causar a falha na verificação do status do sistema incluem perda de conectividade de rede, perda de energia do sistema, problemas de software no host físico e problemas de hardware no host físico que afetam a acessibilidade da rede.
- Características das instâncias recuperadas
-
Uma instância recuperada é idêntica à instância original, exceto pelos elementos que são perdidos.
Elementos preservados:
-
ID da instância
-
seus endereços IP públicos, privados e elásticos;
-
Metadados da instância
-
Grupo de posicionamento
-
volumes do EBS associados.
-
Zona de disponibilidade
Elementos perdidos:
-
Dados armazenados na memória volátil (RAM)
-
Dados armazenados em volumes de armazenamento de instâncias (aplicável somente à recuperação baseada em ações do CloudWatch)
-
O tempo de atividade do sistema operacional é redefinido para zero
-
- Monitoramento de verificações de status do sistema com o CloudWatch
-
A métrica StatusCheckFailed_System no CloudWatch indica se uma verificação de status do sistema foi aprovada ou falhou.
Valores da métrica:
-
0: a verificação de status do sistema foi aprovada.
-
1: a verificação de status do sistema falhou.
-
- Eventos no AWS Health Dashboard
-
Durante as tentativas automáticas de recuperação da instância, a AWS envia eventos para seu AWS Health Dashboard com base no mecanismo de recuperação configurado e no resultado:
-
Recuperação automática simplificada
-
Evento de êxito:
AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_SUCCESS
-
Evento de falha:
AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_FAILURE
-
-
Recuperação baseada em ações do CloudWatch
-
Evento de êxito:
AWS_EC2_INSTANCE_AUTO_RECOVERY_SUCCESS
-
Evento de falha:
AWS_EC2_INSTANCE_AUTO_RECOVERY_FAILURE
-
-
Diferenças entre a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch
A tabela a seguir compara as principais diferenças entre a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch.
Ponto de comparação | Recuperação automática simplificada | Recuperação baseada em ações do CloudWatch |
---|---|---|
Configuração | Habilitada por padrão nas instâncias com suporte | Requer configuração manual dos alarmes e ações do CloudWatch |
Flexibilidade | Comportamento fixo de recuperação gerenciado pela AWS | Ações e condições personalizáveis |
Notificação | Notificações básicas por meio do AWS Health Dashboard | Notificações personalizáveis por meio do SNS |
Tamanho da instância metal | Excluído | Incluído |
Volumes de armazenamento de instância anexados na execução. | Sem suporte para instâncias que anexam volumes de armazenamento de instância na execução | Com suporte em tipos de instância selecionados. Observe que os dados nos volumes de armazenamento de instância são perdidos durante a recuperação da instância. |
Tempo de recuperação | Tentativa de recuperação padrão | Tentativas de recuperação mais rápidas do que a recuperação automática simplificada |
Custo | Sem custo adicional | Pode incorrer em cobranças do CloudWatch |
Crie um sistema resiliente
Embora a recuperação automática simplificada e a recuperação baseada em ações do CloudWatch sejam eficazes para manter a disponibilidade de instâncias individuais, a AWS recomenda a implementação de uma arquitetura de alta disponibilidade que permita o failover do tráfego para instâncias íntegras.
Para conseguir isso, considere usar serviços da AWS como o Elastic Load Balancing (que distribui o tráfego de entrada em várias instâncias do EC2) e o Amazon EC2 Auto Scaling (que ajusta automaticamente o número de instâncias com base na demanda e na integridade).
Para obter mais informações sobre a criação de um sistema resiliente e tolerante a falhas com instâncias do EC2, consulte os recursos a seguir:
-
De volta ao básico: projetando para falhas com o EC2
no canal AWS do YouTube -
Arquitetura de recuperação de desastres (DR) na AWS, parte I: estratégias de recuperação na nuvem
no site do Blog de Arquitetura da AWS. -
REL11-BP02 failover para recursos íntegros no Pilar de confiabilidade do AWS Well-Architected Framework