비즈니스 연속성 계획(BCP) - AWS에서 워크로드의 재해 복구: 클라우드에서의 복구

비즈니스 연속성 계획(BCP)

재해 복구 계획은 독립 실행형 문서가 아니라 조직의 비즈니스 연속성 계획(BCP)에 포함되어야 합니다. 재해가 워크로드 이외의 비즈니스 요소에 미치는 영향으로 인해 워크로드의 비즈니스 목표를 달성할 수 없는 경우 워크로드를 복원하기 위한 적극적인 재해 복구 목표를 유지할 필요가 없습니다. 예를 들어 지진으로 인해 전자 상거래 애플리케이션에서 구매한 제품을 운송하지 못할 수 있습니다. 이 경우 효과적인 DR로 워크로드가 계속 작동하더라도 BCP에 운송 요구 사항을 포함해야 합니다. DR 전략은 비즈니스 요구 사항, 우선 순위 및 컨텍스트를 기반으로 해야 합니다.

비즈니스 영향 분석 및 위험 평가

비즈니스 영향 분석은 워크로드에 미치는 비즈니스 중단의 영향을 정량화해야 합니다. 워크로드를 사용할 수 없는 내부 및 외부 고객에게 미치는 영향과 비즈니스에 미치는 영향을 파악해야 합니다. 분석은 워크로드를 얼마나 빨리 가용 상태로 전환해야 하는지, 얼마나 많은 데이터 손실을 허용할 수 있는지를 결정하는 데 도움이 됩니다. 그러나 복구 목표를 개별적으로 설정해서는 안 됩니다. 중단 가능성과 복구 비용은 워크로드에 재해 복구를 제공하는 비즈니스 가치를 알리는 데 도움이 되는 핵심 요소입니다.

비즈니스에 미치는 영향은 시기에 따라 달라질 수 있으며 재해 복구 계획 시 이 점을 고려하는 것이 좋습니다. 예를 들어, 급여 시스템의 중단은 모든 사람이 급여를 받기 직전에는 비즈니스에 매우 큰 영향을 미칠 수 있지만 모든 사람이 급여를 받은 직후에는 영향이 적을 수 있습니다.

워크로드의 기술적 구현에 대한 개요와 함께 재해의 유형 및 지리적 영향에 대한 위험 평가를 수행하면 각 유형의 재해 시 중단이 발생할 가능성을 확인할 수 있습니다.

매우 중요한 워크로드의 경우 비즈니스에 미치는 영향을 최소화하기 위해 지속적인 백업을 통해 여러 리전에 걸친 고가용성을 검토할 수 있습니다. 덜 중요한 워크로드의 경우 재해 복구를 전혀 수행하지 않는 것이 유효한 전략일 수 있습니다. 또한 일부 재해 시나리오의 경우 재해 발생 가능성이 낮기 때문에 정보에 입각한 결정에 따라 재해 복구 전략을 마련하지 않는 것이 타당합니다. AWS 리전 내의 가용 영역은 이미 두 영역 사이에 의미 있는 거리를 두고 설계되어 대부분의 일반적인 재해가 한 영역에만 영향을 미치고 다른 영역에는 영향을 주지 않도록 주의 깊게 위치가 계획되어 있습니다. 따라서 AWS 리전 내의 다중 AZ 아키텍처가 위험 완화 요구 사항을 이미 충족할 수도 있습니다.

재해 복구 전략이 비즈니스에 미치는 영향과 위험을 고려하여 적합한 수준의 비즈니스 가치를 제공하는지 확인하기 위해 재해 복구 옵션의 비용을 평가해야 합니다.

이 모든 정보에 입각하여 다양한 재해 시나리오가 가져오는 위협, 위험, 영향 및 비용과 관련 복구 옵션을 문서화할 수 있습니다. 이 정보를 기반으로 각 워크로드에 대한 복구 목표를 결정해야 합니다.

복구 목표(RTO 및 RPO)

재해 복구(DR) 전략을 수립할 때 조직은 일반적으로 복구 시간 목표(RTO)와 복구 시점 목표(RPO)를 계획합니다.

복구 목표의 관계를 보여 주는 이미지

그림 3 - 복구 목표

복구 시간 목표(RTO)는 서비스 중단 시점과 서비스 복원 시점 간에 허용되는 최대 지연 시간으로, 서비스 불가능 상태가 허용되는 기간을 고려하여 결정되며, 조직에서 정의합니다.

이 백서에서는 백업 및 복원, 파일럿 라이트, 웜 스탠바이, 다중 사이트 활성/활성(클라우드의 재해 복구 옵션 참조)의 4가지 DR 전략에 대해 설명합니다. 다음 다이어그램에서 기업은 최대 허용 RTO와 서비스 복원 전략에 사용할 수 있는 금액의 한도를 결정했습니다. 비즈니스 목표를 고려할 때 파일럿 라이트 또는 웜 스탠바이 DR 전략은 RTO와 비용 기준을 모두 충족합니다.

비용 및 복잡성 대 서비스 중단 기간의 관계로 복구 시간 목표를 보여 주는 그래프

그림 4 - 복구 시간 목표

복구 시점 목표(RPO)는 마지막 데이터 복구 시점 이후 허용되는 최대 시간으로, 마지막 복구 시점과 서비스 중단 시점 사이에 허용되는 데이터 손실량을 고려하여 결정되며, 조직에서 정의합니다.

다음 다이어그램에서 기업은 최대 허용 RPO와 데이터 복구 전략에 사용할 수 있는 비용의 한도를 결정했습니다. 네 가지 DR 전략 중 파일럿 라이트 또는 웜 스탠바이 DR 전략이 RPO 및 비용에 대한 두 가지 기준을 모두 충족합니다.

비용 및 복잡성 대 서비스 중단 이전의 데이터 손실 관계로 복구 시점 목표를 보여 주는 그래프

그림 5 - 복구 지점 목표

참고

복구 비용이 장애 또는 손실 비용보다 높은 경우 규정 요구 사항과 같은 부차적 요인이 없는 한 복구 옵션을 적용해서는 안 됩니다.