Teste de recuperação de desastres
Teste a implementação de recuperação de desastres para validar a implementação e teste regularmente o failover para a região de DR de sua workload para garantir que o RTO e o RPO sejam atendidos.
Um padrão que deve ser evitado é o desenvolvimento de caminhos de recuperação que raramente são executados. Por exemplo, você pode ter um repositório de dados secundário utilizado para consultas somente leitura. Quando você grava em um repositório de dados e o repositório de dados primário falha, pode ser necessário fazer o failover para o repositório de dados secundário. Se você não testar esse failover com frequência, poderá descobrir que suas suposições sobre as capacidades do armazenamento de dados secundário são incorretas. A capacidade do secundário, que talvez tenha sido suficiente quando você testou pela última vez, pode não ser mais capaz de tolerar a carga nesse cenário ou as cotas de serviço na região secundária podem não ser suficientes.
Nossa experiência demonstra que a única recuperação de erro que funciona é o caminho que você testa com frequência. É por isso que é melhor ter um pequeno número de caminhos de recuperação.
Você pode estabelecer padrões de recuperação e testá-los regularmente. Se você tiver um caminho de recuperação complexo ou crítico, ainda precisará executar regularmente essa falha na produção para validar o funcionamento desse caminho.
Gerencie o desvio de configuração na região de DR. Garanta que sua infraestrutura, seus dados e sua configuração estejam de acordo com o que é necessário na região de DR. Por exemplo, verifique se as AMIs e as cotas de serviço estão atualizadas.
Você pode usar o AWS Config