REL13-BP01 Definición de objetivos de recuperación para el tiempo de inactividad y la pérdida de datos - Pilar de fiabilidad

REL13-BP01 Definición de objetivos de recuperación para el tiempo de inactividad y la pérdida de datos

La carga de trabajo tiene un objetivo de tiempo de recuperación (RTO) y un objetivo de punto de recuperación (RPO).

El objetivo de tiempo de recuperación (RTO) es el tiempo máximo aceptable entre la interrupción del servicio y su restablecimiento. Este valor determina el período de tiempo que se considera aceptable cuando el servicio no está disponible.

El objetivo de punto de recuperación (RPO) es el tiempo máximo aceptable desde el último punto de recuperación de datos. Esto determina qué se considera una pérdida de datos aceptable entre el último punto de recuperación y la interrupción del servicio.

Los valores de RTO y RPO son consideraciones importantes al seleccionar una estrategia de recuperación de desastres (DR) adecuada para su carga de trabajo. La empresa determina estos objetivos y, a continuación, los equipos técnicos los utilizan para seleccionar e implementar una estrategia de DR.

Resultado deseado: 

Cada carga de trabajo tiene un RTO y un RPO asignados, definidos en función del impacto empresarial. La carga de trabajo se asigna a un nivel predefinido, que define la disponibilidad del servicio y la pérdida aceptable de datos, con un RTO y un RPO asociados. Si dicha organización por niveles no es posible, se puede asignar a medida por carga de trabajo, con la intención de crear niveles más adelante. El RTO y el RPO se utilizan como una de las principales consideraciones al seleccionar la implementación de una estrategia de recuperación de desastres para la carga de trabajo. Otras consideraciones a la hora de elegir una estrategia de DR son las limitaciones de costos, las dependencias de la carga de trabajo y los requisitos operativos.

En el caso del RTO, debe comprender el impacto en función de la duración de una interrupción. ¿Es lineal o tiene implicaciones no lineales? (Por ejemplo, después de cuatro horas, se cierra una línea de fabricación hasta que comienza el siguiente turno).

Una matriz de recuperación de desastres, como la siguiente, puede ayudar a comprender la relación entre la importancia de la carga de trabajo y los objetivos de recuperación. (Tenga en cuenta que los valores reales de los ejes X e Y deben personalizarse según las necesidades de su organización).

Gráfico en el que se muestra la matriz de recuperación de desastres

Figura 16: Matriz de recuperación de desastres

Patrones comunes de uso no recomendados:

  • No hay objetivos de recuperación definidos.

  • Seleccionar objetivos de recuperación arbitrarios.

  • Seleccionar objetivos de recuperación demasiado permisivos y no satisfacer los objetivos empresariales.

  • No comprender el impacto del tiempo de inactividad y la pérdida de datos.

  • Seleccionar objetivos de recuperación poco realistas, como un tiempo de recuperación nulo y una pérdida de datos nula, que pueden no ser alcanzables para la configuración de la carga de trabajo.

  • Seleccionar objetivos de recuperación más estrictos que los objetivos empresariales reales. Esto obliga a hacer implementaciones de DR más costosas y complejas que lo que necesita la carga de trabajo.

  • Seleccionar objetivos de recuperación incompatibles con los de una carga de trabajo dependiente.

  • Los objetivos de recuperación no tienen en cuenta los requisitos de cumplimiento normativo.

  • El RTO y RPO están definidos para una carga de trabajo, pero nunca se han probado.

Beneficios de establecer esta práctica recomendada: los objetivos de recuperación de tiempo y pérdida de datos son necesarios para guiar la implementación de DR.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto

Guía para la implementación

Para la carga de trabajo determinada, debe comprender el impacto del tiempo de inactividad y la pérdida de datos en su empresa. Por lo general, el impacto aumenta con un mayor tiempo de inactividad o pérdida de datos, pero la forma de este crecimiento puede variar según el tipo de carga de trabajo. Por ejemplo, es posible que pueda tolerar el tiempo de inactividad de hasta una hora con un impacto mínimo, pero después ese impacto se agrava rápidamente. El impacto en la empresa se manifiesta de muchas maneras, por ejemplo, los costos monetarios (como la pérdida de ingresos), la confianza de los clientes (y el impacto en la reputación), los problemas operativos (como la falta de nóminas o la disminución de la productividad) y el riesgo reglamentario. Haga lo siguiente para comprender estos impactos y configure el RTO y RPO para la carga de trabajo.

Pasos para la implementación

  1. Determine cuáles son las partes interesadas de la empresa para esta carga de trabajo y contacte con ellas para implementar estos pasos. Los objetivos de recuperación de una carga de trabajo son una decisión empresarial. A continuación, los equipos técnicos trabajan con las partes interesadas de la empresa para utilizar estos objetivos y seleccionar una estrategia de DR.

    nota

    Para los pasos 2 y 3, puede utilizar la Hoja de implementación.

  2. Responda a las preguntas siguientes para recopilar la información necesaria para tomar una decisión.

  3. ¿Tiene categorías o niveles de importancia crítica del impacto de la carga de trabajo en su organización?

    1. En caso afirmativo, asigne esta carga de trabajo a una categoría

    2. En caso negativo, establezca estas categorías. Cree cinco categorías o menos y ajuste el rango del objetivo de tiempo de recuperación para cada una de ellas. Entre las categorías de ejemplo se incluyen las siguientes: crítico, alto, medio y bajo. Para comprender cómo se asignan las cargas de trabajo a las categorías, considere si la carga de trabajo es crítica, empresarial o no empresarial.

    3. Configure el RTO y RPO de la carga de trabajo en función de la categoría. Elija siempre una categoría más estricta (menor RTO y RPO) que los valores brutos calculados al efectuar este paso. Si esto provoca un gran cambio de valor que sea inadecuado, considere la posibilidad de crear una nueva categoría.

  4. En función de estas respuestas, asigne los valores de RTO y RPO a la carga de trabajo. Esto se puede hacer directamente o mediante la asignación de la carga de trabajo a un nivel de servicio predefinido.

  5. Documente el plan de recuperación de desastres (DRP) para esta carga de trabajo, que forma parte del plan de continuidad empresarial (BCP) de su organización, en una ubicación a la que puedan acceder el equipo de carga de trabajo y las partes interesadas

    1. Registre el RTO y RPO, así como la información utilizada para determinar estos valores. Incluya la estrategia utilizada para evaluar el impacto de la carga de trabajo en la empresa

    2. Registre otras métricas además del RTO y RPO de las que va a hacer un seguimiento o planea hacer un seguimiento para los objetivos de recuperación de desastres

    3. Cuando los cree, agregará los detalles de la estrategia de recuperación de desastres y del manual de procedimientos a este plan.

  6. Al buscar la importancia de la carga de trabajo en una matriz como la de la figura 15, puede empezar a establecer niveles de servicio predefinidos definidos para su organización.

  7. Una vez que haya implementado una estrategia de DR (o una prueba de concepto para una estrategia de DR) como se indica en REL13-BP02 Uso de estrategias de recuperación definidas para cumplir los objetivos de recuperación, pruebe esta estrategia para determinar la RTC (capacidad de tiempo de recuperación) y la RPC (capacidad de punto de recuperación) reales de la carga de trabajo. Si estas no cumplen con los objetivos de recuperación previstos, puede trabajar con las partes interesadas de la empresa para ajustar dichos objetivos o hacer cambios en la estrategia de recuperación de desastres, si es posible, para cumplir los objetivos establecidos.

Preguntas principales

  1. ¿Cuál es el tiempo máximo que se puede desactivar la carga de trabajo antes de que se produzca un impacto grave en la empresa?

    1. Determine el costo monetario (impacto financiero directo) por minuto para la empresa en caso de que se interrumpa la carga de trabajo.

    2. Tenga en cuenta que el impacto no siempre es lineal. El impacto puede limitarse al principio y, luego, aumentar rápidamente más allá de un punto crítico en el tiempo.

  2. ¿Cuál es la cantidad máxima de datos que se puede perder antes de se produzca un impacto grave en la empresa?

    1. Tenga en cuenta este valor para el almacén de datos más importante. Identifique la importancia respectiva de otros almacenes de datos.

    2. ¿Se pueden volver a crear los datos de la carga de trabajo si se pierden? Si esto es más fácil desde el punto de vista operativo que hacer copias de seguridad y restaurar, elija el RPO en función de la importancia de los datos de origen que se utilizan para volver a crear los datos de la carga de trabajo.

  3. ¿Cuáles son los objetivos de recuperación y las expectativas de disponibilidad de las cargas de trabajo de las que depende (en sentido descendente) o de las cargas de trabajo que dependen de esta (en sentido ascendente)?

    1. Elija objetivos de recuperación que permitan que esta carga de trabajo cumpla con los requisitos de las dependencias ascendentes

    2. Elija objetivos de recuperación que sean alcanzables gracias a las capacidades de recuperación de las dependencias descendentes. Se pueden excluir las dependencias descendentes no críticas (aquellas que se pueden “solucionar”). También puede trabajar con las dependencias descendentes críticas para mejorar sus capacidades de recuperación cuando sea necesario.

Preguntas adicionales

Tenga en cuenta estas preguntas y cómo se pueden aplicar a esta carga de trabajo:

  1. ¿Tiene un RTO y un RPO distintos según el tipo de interrupción (región en comparación con zona de disponibilidad, etc.)?

  2. ¿Existe algún momento específico (estacionalidad, eventos de ventas, lanzamientos de productos) en el que pueda cambiar el RTO o RPO? Si es así, ¿cuáles son las distintas medidas y límites de tiempo?

  3. ¿Cuántos clientes se verán afectados si se interrumpe la carga de trabajo?

  4. ¿Cuál es el impacto en la reputación si se interrumpe la carga de trabajo?

  5. ¿Qué otros impactos operativos pueden producirse si se interrumpe la carga de trabajo? Por ejemplo, el impacto en la productividad de los empleados si los sistemas de correo electrónico no están disponibles o si los sistemas de nómina no pueden enviar transacciones.

  6. ¿Cómo se alinean el RTO y el RPO de la carga de trabajo con la estrategia de recuperación de desastres organizativa y de línea de negocio?

  7. ¿Existen obligaciones contractuales internas para la prestación de un servicio? ¿Existen sanciones por no cumplirlas?

  8. ¿Cuáles son las restricciones reglamentarias o de cumplimiento con respecto a los datos?

Hoja de implementación

Puede utilizar esta hoja de trabajo para los pasos 2 y 3 de la implementación. Puede ajustar esta hoja de trabajo para adaptarla a sus necesidades específicas, por ejemplo, agregar otras preguntas.

Hoja de trabajo

Hoja de trabajo

Nivel de esfuerzo para el plan de implementación:  bajo

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Videos relacionados: