Disaster Recovery Plan: clave para la continuidad operacional

Disaster Recovery Plan

Hoy vamos a hablar de un aspecto crucial en la Ingeniería de Software que, lamentablemente, muchas empresas pasan por alto. Esta negligencia puede representar un riesgo significativo para la organización, con el potencial de generar pérdidas financieras sustanciales y dañar su reputación.

El DRP (Disaster Recovery Plan o Plan de Recuperación ante Desastres en español) es un documento que identifica y categoriza diversos riesgos e incidentes potenciales que podrían afectar a un sistema, y define los procedimientos para mitigarlos y recuperarse de ellos. Es una pieza fundamental para garantizar la continuidad operativa de un sistema, ya que detalla el paso a paso de las acciones a seguir en caso de un incidente, facilitando la recuperación de datos y la restauración de las funcionalidades, incluso en su forma más básica.

Este plan debe ser revisado y probado al menos una vez al año. Sin embargo, en ciertos componentes críticos del sistema, las pruebas pueden ser más frecuentes, especialmente si experimentan cambios significativos. Esto asegura que el plan se mantenga actualizado y operativo en caso de ser necesario implementarlo, reduciendo así los riesgos operativos, mejorando la capacidad de respuesta del equipo y minimizando el tiempo de inactividad, lo que a su vez minimiza las pérdidas financieras y los daños a la reputación de la organización.

Cada incidente potencial identificado en un DRP debe incluir dos variables clave:

RPO (Recovery Point Objective): es el tiempo máximo de pérdida de datos aceptable en caso de un incidente. En otras palabras, define cuánto tiempo de datos se puede perder sin causar un impacto significativo en la operación. Por ejemplo, si nuestra base de datos realiza una copia de seguridad cada hora, tenemos un RPO de 1 hora. Esto significa que, en el peor de los casos, podríamos perder hasta una hora de datos al restaurar desde la última copia de seguridad disponible.
RTO (Recovery Time Objective): es el tiempo máximo aceptable para restaurar un servicio o sistema después de una interrupción.

Puntos clave a considerar en un DRP

Indisponibilidad de proveedores (principalmente de cloud)
Falla en una región de un cloud
Falla o indisponibilidad en una base de datos
Falla o indisponibilidad en el procesamiento de datos
Falla o indisponibilidad en el almacenamiento de datos
Errores o indisponibilidad en la aplicación
Fallo o indisponibilidad en las comunicaciones
Indisponibilidad temporal del equipo de trabajo
Perdidas de datos
Tiempo de recuperación
Desastre naturales
Malware u otro ciberataque
Corte de energía

Conclusión

A lo largo de mi trayectoria profesional, he tenido la oportunidad de elaborar diversos documentos de DRP, participar en pruebas y colaborar en procesos de auditoría externa, lo que resultó en la certificación de los sistemas en los que trabajé. Para mí, es un proceso muy gratificante saber que los sistemas que ayudamos a construir son resilientes a fallos y minimizan el impacto en la continuidad operativa de la organización.

Por ello, recomiendo encarecidamente que las organizaciones elaboren y mantengan sus DRPs actualizados. Nunca sabemos cuándo los necesitaremos. La pandemia de COVID-19 demostró en los últimos años que no todas las organizaciones estaban realmente preparadas.