REL13-BP04 Gerenciar o desvio de configuração no local ou na região de recuperação de desastres
Para realizar um procedimento bem-sucedido de recuperação de desastres (DR), a workload deve ser capaz de retomar as operações normais em tempo hábil, sem perda relevante de funcionalidade ou dados, assim que o ambiente de DR ficar on-line. Para atingir essa meta, é essencial manter a infraestrutura, os dados e as configurações consistentes entre o ambiente de DR e o ambiente primário.
Resultado desejado: a configuração e os dados do local de recuperação de desastres estão em paridade com o local primário, o que facilita a recuperação rápida e completa quando necessário.
Práticas comuns que devem ser evitadas:
-
Não atualizar os locais de recuperação quando são feitas alterações nos locais primários, o que resulta em configurações desatualizadas que podem prejudicar os esforços de recuperação.
-
Não considerar possíveis limitações, como diferenças de serviço entre locais primários e de recuperação, o que pode levar a falhas inesperadas durante o failover.
-
Depender de processos manuais para atualizar e sincronizar o ambiente de DR, o que aumenta o risco de erro humano e inconsistência.
-
Não conseguir detectar desvio na configuração, o que leva a uma falsa sensação de prontidão do local de DR antes de um incidente.
Benefícios de implementar essa prática recomendada: a consistência entre o ambiente de DR e o ambiente primário melhora significativamente a probabilidade de uma recuperação bem-sucedida após um incidente e reduz o risco de falha no procedimento de recuperação.
Nível de risco exposto se esta prática recomendada não for estabelecida: Alto
Orientação para implementação
Uma abordagem abrangente ao gerenciamento de configuração e preparação para failover pode ajudar você a verificar se o local de DR está constantemente atualizado e preparado para assumir o controle em caso de falha no local primário.
Para obter consistência entre os ambientes primário e de recuperação de desastres (DR), valide se os pipelines de entrega distribuem aplicações tanto para os locais primários quanto para os locais de DR. Implemente as alterações nos locais de DR após um período de avaliação apropriado (também conhecido como implantações progressivas) para detectar problemas no local primário e interromper a implantação antes que eles se espalhem. Implemente o monitoramento para detectar desvios na configuração e rastrear as alterações e a conformidade dos ambientes. Execute a remediação automatizada no local de DR para mantê-lo totalmente consistente e pronto para assumir o controle no caso de um incidente.
Etapas de implementação
-
Valide se a região de DR contém os recursos e serviços da AWS necessários para uma execução bem-sucedida do seu plano de DR.
-
Use a infraestrutura como código (IaC). Mantenha a infraestrutura de produção e modelos de configuração de aplicações precisos e aplique-os regularmente ao ambiente de recuperação de desastres. O AWS CloudFormation
pode detectar desvios entre o que os modelos do CloudFormation especificam e o que é realmente implantado. -
Configure pipelines de CI/CD para implantar atualizações de aplicações e infraestrutura em todos os ambientes, incluindo locais primários e de DR. Soluções de CI/CD, como o AWS CodePipeline
, podem automatizar o processo de implantação, o que reduz o risco de desvio na configuração. -
Faça implantações progressivas entre os ambientes primário e de DR. Essa abordagem permite que as atualizações sejam inicialmente implantadas e testadas no ambiente primário, o que isola os problemas no local primário antes que eles sejam propagados para o local de DR. Essa abordagem evita que defeitos sejam enviados simultaneamente para a produção e para o local de DR e mantém a integridade do ambiente de DR.
-
Monitore continuamente as configurações de recursos nos ambientes primário e de DR. Soluções como o AWS Config
podem ajudar a impor a conformidade da configuração e detectar desvios, o que ajuda a manter as configurações consistentes entre os ambientes. -
Implemente mecanismos de alerta para rastrear e notificar sobre qualquer desvio de configuração ou interrupção ou atraso na replicação de dados.
-
Automatize a correção do desvio de configuração detectado.
-
Agende auditorias regulares e verificações de conformidade para verificar o alinhamento contínuo entre as configurações primária e de DR. As revisões periódicas ajudam você a manter a conformidade com as regras definidas e a identificar quaisquer discrepâncias que precisem ser resolvidas.
-
Verifique se há incompatibilidades na capacidade provisionada pela AWS, nas cotas de serviço, nos controles de utilização e nas discrepâncias de configuração e versão.
Recursos
Práticas recomendadas relacionadas:
Documentos relacionados:
-
Como remediar recursos não compatíveis da AWS pelo Regras do AWS Config
-
AWS CloudFormationDetectar alterações de configuração não gerenciadas em pilhas e recursos
-
AWS CloudFormation: detectar desvios em uma pilha inteira do CloudFormation
-
Recuperação de desastres de workloads na AWS: recuperação na nuvem (whitepaper da AWS)
-
Como faço para implementar uma solução de gerenciamento de configuração de infraestrutura na AWS?
-
Como remediar recursos não compatíveis da AWS pelo Regras do AWS Config
Vídeos relacionados:
Exemplos relacionados: