Plano de continuidade dos negócios - Recuperação de desastres de workloads na AWS: recuperação na nuvem

Plano de continuidade dos negócios

Seu plano de recuperação de desastres deve ser um subconjunto do plano de continuidade dos negócios (BCP) de sua organização, e não um documento independente. Não faz sentido manter metas agressivas de recuperação de desastres para restaurar uma workload se os objetivos empresariais referentes a essa workload não puderem ser alcançados devido ao impacto do desastre em outros elementos de seus negócios que não sejam sua workload. Por exemplo, um terremoto pode impedir você de transportar produtos comprados em sua aplicação de comércio eletrônico. Mesmo que uma recuperação de desastres eficaz mantenha sua workload funcionando, seu BCP precisa atender às necessidades de transporte. Sua estratégia de recuperação de desastres deve se basear nos requisitos, nas prioridades e no contexto dos negócios.

Análise de impacto sobre os negócios e avaliação de riscos

Uma análise de impacto sobre os negócios deve quantificar o impacto comercial de uma interrupção em suas workloads. Essa análise deve identificar o impacto sobre os clientes internos e externos, pelo fato de não conseguirem usar suas workloads, e o efeito que isso tem sobre seus negócios. Ela deve ajudar a determinar a rapidez com que a workload precisa ser disponibilizada e a quantidade de perda de dados tolerável. No entanto, é importante observar que os objetivos de recuperação não devem ser realizados isoladamente. A probabilidade de interrupção e o custo da recuperação são fatores-chave que ajudam a revelar o valor empresarial de fornecer recuperação de desastres para uma workload.

O impacto sobre os negócios pode ser uma questão de tempo. É aconselhável levar isso em consideração em seu planejamento de recuperação de desastres. Por exemplo, a interrupção de seu sistema de folha de pagamento provavelmente terá um impacto muito maior sobre os negócios um pouco antes de todos serem pagos, mas pode ter pouco impacto logo depois que todos já tiverem sido pagos.

Uma avaliação de riscos em relação a desastres e impacto geográfico, associada a uma visão geral sobre a implementação técnica de sua workload, determinará a probabilidade de ocorrência de interrupção para cada tipo de desastre.

Para workloads extremamente essenciais, você pode manter a alta disponibilidade em várias regiões com backups contínuos para minimizar o impacto sobre os negócios. Para workloads menos essenciais, uma estratégia válida pode ser não implementar nenhuma recuperação de desastres. Além disso, com relação a algumas circunstâncias de desastre, também é válido não ter nenhuma estratégia de recuperação de desastres em vigor que se fundamente em uma baixa probabilidade de ocorrência de desastre. Lembre-se de que as zonas de disponibilidade dentro de uma região da AWS já foram projetadas com uma distância significativa entre elas e um planejamento cuidadoso de localização, para que os desastres mais comuns afetem apenas uma zona e não as demais. Portanto, uma arquitetura multi-AZ em uma região da AWS talvez já atenda às suas necessidades de atenuação de riscos.

O custo das opções de recuperação de desastres deve ser avaliado para garantir que a estratégia para isso forneça o nível correto de valor empresarial com base no risco e impacto comerciais.

Com todas essas informações, você pode documentar a ameaça, o risco, o impacto e o custo de diferentes cenários de desastre e as opções de recuperação correspondentes. Essas informações devem ser usadas para determinar seus objetivos de recuperação para cada uma de suas workloads.

Objetivos de recuperação (RTO e RPO)

Ao criar uma estratégia de recuperação de desastres (DR), as organizações geralmente planejam o objetivo de tempo de recuperação (RTO) e o objetivo de ponto de recuperação (RPO).

Imagem mostrando a relação entre os objetivos de recuperação.

Figura 3: objetivos de recuperação

Objetivo de tempo de recuperação (RTO) refere-se ao atraso máximo aceitável entre a interrupção e a restauração de um serviço. Esse objetivo é definido pela organização e determina o que é considerado uma janela de tempo aceitável quando o serviço está indisponível.

Quatro estratégias de DR são discutidas neste documento: backup e restauração, luz piloto, standby passivo e ativo/ativo em vários locais (consulte Opções de recuperação de desastres na nuvem). No diagrama a seguir, a empresa determinou seu RTO máximo permissível, bem como o limite ela pode gastar em sua estratégia de restauração de serviços. Em vista dos objetivos da empresa, as estratégias de DR luz piloto e standby passivo atenderão ao RTO e aos critérios de custo.

Gráfico mostrando o objetivo de tempo de recuperação como uma relação de custos e complexidade versus tempo de interrupção do serviço.

Figura 4: objetivo de tempo de recuperação

Objetivo de ponto de recuperação (RPO) refere-se ao tempo máximo aceitável desde o último ponto de recuperação de dados. Esse objetivo é definido pela organização e determina o que é considerado uma perda de dados aceitável entre o último ponto de recuperação e a interrupção do serviço.

No diagrama a seguir, a empresa determinou seu RPO máximo permissível, bem como o limite do que ela pode gastar em sua estratégia de recuperação de dados. Das quatro estratégias de DR, a de luz piloto ou a de standby passivo atende aos critérios de RPO e custo.

Gráfico mostrando o objetivo de ponto de recuperação como uma relação de custos e complexidade versus perda de dados antes da interrupção do serviço.

Figura 5: objetivo de ponto de recuperação

nota

Se o custo da recuperação for maior do que o custo da falha ou perda, a opção de recuperação não deve ser implementada, a menos que haja um determinante secundário, como requisitos regulatórios.