Plan de continuidad del negocio (BCP) - Recuperación de desastres de cargas de trabajo en AWS: recuperación en la nube

Plan de continuidad del negocio (BCP)

Su plan de recuperación de desastres debe formar parte del plan de continuidad del negocio (BCP) de su organización, no debe ser un documento independiente. No tiene sentido mantener objetivos estrictos de recuperación de desastres para restaurar una carga de trabajo si los objetivos empresariales de esa carga de trabajo no se pueden alcanzar debido al impacto del desastre en elementos de la empresa que no sean la carga de trabajo. Por ejemplo, un terremoto podría impedirle transportar productos comprados a través de la aplicación de comercio electrónico; incluso si una recuperación de desastres efectiva mantuviera la carga de trabajo en funcionamiento, el BCP debería adaptarse a las necesidades de transporte. Su estrategia de recuperación de desastres debe basarse en los requisitos, las prioridades y el contexto de la empresa.

Análisis del impacto en la empresa y evaluación de riesgos

El análisis de impacto en la empresa debe cuantificar el impacto en la empresa de una interrupción en las cargas de trabajo. Debe identificar el impacto en los clientes internos y externos al no poder usar las cargas de trabajo y su efecto en el negocio. El análisis debería ayudar a determinar con qué velocidad puede ponerse a disposición la carga de trabajo y cuánta pérdida de datos se puede tolerar. Sin embargo, es importante tener en cuenta que los objetivos de recuperación no deben hacerse de forma aislada; la probabilidad de interrupción y el coste de la recuperación son factores clave que ayudan a explicar el valor empresarial de proporcionar recuperación de desastres para una carga de trabajo.

El impacto en la empresa puede depender del tiempo. Se recomienda incluir esto en la planificación de recuperación de desastres. Por ejemplo, es probable que la interrupción del sistema de nómina afecte en gran medida a la empresa justo antes de pagar las nóminas, pero puede tener un efecto poco perceptible si ocurre después de pagar las nóminas.

Una evaluación de riesgos del tipo de desastre y el impacto geográfico junto con información general sobre la implementación técnica de la carga de trabajo determinará la probabilidad de que se produzca una interrupción en cada tipo de desastre.

Para cargas de trabajo muy críticas, puede considerar la alta disponibilidad en varias regiones con copias de seguridad continuas implementadas para minimizar el impacto en el negocio. En el caso de cargas de trabajo menos críticas, quizá una estrategia válida sea no implementar ninguna recuperación de desastres. Y para algunos escenarios de desastres, también es válido no tener ninguna estrategia de recuperación de desastres implementada teniendo en cuenta la baja probabilidad de que ocurra el desastre. Hay que recordar que las zonas de disponibilidad dentro de una región de AWS ya se han diseñado con una distancia significativa entre ellas y una planificación cuidadosa de la ubicación, para que los desastres más comunes solo afecten a una zona y no a las demás. Por lo tanto, es posible que una arquitectura Multi-AZ dentro de una región de AWS ya cubra las necesidades de mitigación.

Debe evaluarse el coste de las opciones de recuperación de desastres para garantizar que la estrategia de recuperación proporcione el nivel correcto de valor empresarial considerando el impacto y el riesgo en el negocio.

Con toda esta información, se puede documentar la amenaza, el riesgo, el impacto y el coste de los diferentes escenarios de desastre y las opciones de recuperación asociadas. Debe utilizar esta información para determinar sus objetivos de recuperación para cada una de las cargas de trabajo.

Objetivos de recuperación (RTO y RPO)

Al crear una estrategia de recuperación de desastres (DR), las organizaciones suelen planificar el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO).

Imagen que muestra la relación de los objetivos de recuperación.

Ilustración 3: Objetivos de recuperación

El objetivo de tiempo de recuperación (RTO) es el retraso máximo aceptable entre la interrupción del servicio y la restauración del servicio. Este objetivo, que lo define la organización, determina lo que se considera una ventana de tiempo aceptable mientras el servicio no está disponible.

En este documento se analizan cuatro grandes estrategias de DR: copia de seguridad y restauración, luz piloto, espera semiactiva y activa/activa en varios sitios (consulte la sección Opciones de recuperación de desastres en la nube). En el siguiente diagrama, la empresa ha determinado su RTO máximo admisible, así como el límite de lo que puede gastar en la estrategia de restauración de servicios. Según los objetivos de la empresa, las estrategias luz piloto o espera semiactiva de DR cubrirían tanto el RTO como los criterios de coste.

Gráfico que muestra el objetivo de tiempo de recuperación como una relación de costes y complejidad frente a la duración de la interrupción del servicio.

Ilustración 4: Objetivo de tiempo de recuperación

El objetivo de punto de recuperación (RPO) es la cantidad de tiempo máxima aceptable desde el último punto de recuperación de datos. Este objetivo, que lo define la empresa, determina lo que se considera una pérdida aceptable de datos entre el último punto de recuperación y la interrupción del servicio.

En el siguiente diagrama, la empresa ha determinado su RPO máximo admisible, así como el límite de lo que puede gastar en la estrategia de recuperación de datos. De las cuatro estrategias de DR, las estrategias luz piloto o espera semiactiva cumplen con los criterios de RPO y coste.

Gráfico que muestra el objetivo de punto de recuperación como una relación de costes y complejidad frente a la pérdida de datos antes de la interrupción del servicio.

Ilustración 5: Objetivo de punto de recuperación

nota

Si el coste de la recuperación es mayor al del error o la pérdida, la opción de recuperación no debería implementarse a menos que haya un factor secundario, como los requisitos reglamentarios.