Verificações do status das instâncias do Amazon EC2 - Amazon Elastic Compute Cloud

Verificações do status das instâncias do Amazon EC2

Com o monitoramento de status de instâncias, por exemplo, é possível determinar rapidamente se o Amazon EC2 detectou problemas que possam impedir que as instâncias executem aplicações. O Amazon EC2 executa verificações automáticas em cada instância do EC2 em execução para identificar problemas de hardware e software. É possível visualizar os resultados dessas verificações de status para identificar problemas específicos e detectáveis. O status do evento expande as informações que o Amazon EC2 já fornece sobre o estado de cada instância (como pending, running, stopping) e as métricas de utilização que o Amazon CloudWatch monitora (utilização de CPU, tráfego de rede e atividade de disco).

As verificações de status são realizadas a cada minuto e elas retornam o status de aprovação e reprovação. Se todas as verificações forem aprovadas, o status geral da instância será OK. Se uma ou mais verificações falharem, o status geral será impaired. As verificações de status são integradas ao Amazon EC2, portanto elas não podem ser desabilitadas ou excluídas.

Quando uma verificação de status falha, a métrica do CloudWatch correspondente para as verificações de status é incrementada. Para obter mais informações, consulte Métricas de verificação de status. É possível usar essas métricas para criar alarmes do CloudWatch que são acionados com base no resultado das verificações de status. Por exemplo, é possível criar um alarme para avisá-lo se as verificações de status falharem em uma instância específica. Para obter mais informações, consulte Criar alarmes do CloudWatch para instâncias do Amazon EC2 que apresentam falha nas verificações de status.

Também é possível criar um alarme do Amazon CloudWatch que monitore uma instância do Amazon EC2 e recupere automaticamente a instância se ela for danificada devido a um problema subjacente. Para obter mais informações, consulte Resiliência de instância.

Tipos de verificações de status

Existem três tipos de verificação de status.

Verificações de status de sistema

As verificações de status do sistema monitoram os sistemas da AWS nos quais a instância é executada. Essas verificações detectam problemas subjacentes na instância que exigem o envolvimento da AWS para a correção. Quando uma verificação de status do sistema falha, é possível esperar que a AWS corrija o problema ou pode corrigi-lo por conta própria. Para instâncias baseadas no Amazon EBS, é possível interrompê-las e iniciá-las por conta própria, o que, na maioria dos casos, faz com que a instância seja migrada para um novo host. Para instâncias do Linux com armazenamento de instância, é possível encerrar e substituir a instância. Para instâncias do Windows, o volume raiz deve ser um volume do Amazon EBS. O armazenamento de instâncias não é compatível com o volume raiz. Observe que os volumes de armazenamento de instâncias são efêmeros e todos os dados são perdidos quando a instância é interrompida.

A seguir, temos exemplos de problemas que podem causar falha nas verificações de status do sistema:

  • Perda de conectividade de rede

  • Perda de energia do sistema

  • Problemas de software no host físico

  • Problemas de hardware de host físico que afetam a acessibilidade de rede

Se uma verificação de status do sistema falhar, incrementamos a métrica StatusCheckFailed_System.

Instâncias bare metal

Se você executar uma reinicialização do sistema operacional em uma instância bare metal, a verificação de status do sistema poderá retornar temporariamente um status de falha. Quando a instância ficar disponível, a verificação de status do sistema deve retornar um status de aprovação.

Verificações de status de instâncias

Verificações do status da instância monitore o software e a configuração de rede da instância individual. O Amazon EC2 verifica a integridade da instância enviando uma solicitação de protocolo de resolução de endereço (ARP) para a interface de rede (NIC). Essas verificações detectam problemas que exigem seu envolvimento para correção. Quando uma verificação de status de instância falha, geralmente você precisa lidar com o problema por conta própria (por exemplo, reinicializando a instância ou fazendo alterações de configuração da instância).

nota

As distribuições recentes do Linux que usam systemd-networkd para a configuração de rede podem relatar verificações de integridade de maneira diferente das distribuições anteriores. Durante o processo de inicialização, esse tipo de rede pode começar mais cedo e possivelmente terminar antes de outras tarefas de inicialização que também podem afetar a integridade da instância. As verificações de status que dependem da disponibilidade da rede podem relatar um status íntegro antes da conclusão de outras tarefas.

A seguir, temos exemplos de problemas que podem causar falhas nas verificações de status da instância:

  • Verificações de status de sistema com falha

  • Configuração incorreta de redes ou startup

  • Memória exaurida

  • Sistema de arquivos corrompido

  • Kernel incompatível

  • [Instâncias do Windows] Durante a reinicialização da instância ou enquanto uma instância baseada no armazenamento de instância do Windows está sendo empacotada, uma verificação de status da instância relata uma falha até que a instância fique disponível novamente.

Se uma verificação de status da instância falhar, incrementamos a métrica StatusCheckFailed_Instance.

Instâncias bare metal

Se você executar uma reinicialização do sistema operacional em uma instância bare metal, a verificação de status da instância poderá retornar temporariamente um status de falha. Quando a instância ficar disponível, a verificação de status dela deve retornar um status de aprovação.

Verificações de status do EBS anexado

As verificações de status do EBS anexado monitoram se os volumes do Amazon EBS anexados a uma instância estão acessíveis e são capazes de concluir operações de E/S. A métrica StatusCheckFailed_AttachedEBS é um valor binário que indica deficiência caso um ou mais dos volumes do EBS anexados à instância não sejam capazes de concluir operações de E/S. Essas verificações de status detectam problemas subjacentes com a computação ou a infraestrutura do Amazon EBS. Se ocorrer uma falha na métrica de verificação de status do EBS anexado, você pode esperar a AWS resolver o problema ou tomar medidas, como substituir os volumes afetados ou interromper e reiniciar a instância.

Veja abaixo alguns exemplos de problemas que podem causar falha nas verificações de status do EBS anexado:

  • Problemas de hardware ou software nos subsistemas de armazenamento subjacentes aos volumes do EBS

  • Problemas de hardware no host físico que afetam a acessibilidade dos volumes do EBS

  • Problemas de conectividade entre a instância e os volumes do EBS

Você pode usar a métrica StatusCheckFailed_AttachedEBS para ajudar a melhorar a resiliência da sua workload. É possível usar essa métrica para criar alarmes do Amazon CloudWatch que são acionados com base no resultado das verificações de status. Por exemplo, você pode fazer o failover para uma instância secundária ou zona de disponibilidade ao detectar um impacto prolongado. Também é possível monitorar a performance de E/S de cada volume anexado usando as métricas do EBS CloudWatch para detectar e substituir o volume danificado. Se sua workload não estiver direcionando a E/S para nenhum dos volumes do EBS anexados à sua instância e a verificação de status do EBS anexado indicar uma deficiência, você pode interromper a instância e iniciá-la para resolver problemas com o host físico que estiverem afetando a acessibilidade dos volumes do EBS. Para obter mais informações, consulte Métricas de uso do Amazon CloudWatch para o Amazon EBS.

Você também pode configurar seus grupos do Amazon EC2 Auto Scaling para detectar falhas de verificação de status do EBS anexado e, em seguida, substituir a instância afetada por uma nova. Para obter mais informações, consulte Monitor and replace Auto Scaling instances with impaired Amazon EBS volumes no Guia do usuário do Amazon EC2 Auto Scaling.

nota

A métrica de verificação de status do EBS anexado está disponível somente para instâncias do Nitro.