Plan de continuidad

Introducción

Desde hace ya años que el negocio depende de la tecnología. La tecnología es un apoyo fundamental para el negocio. Los fallos en la tecnología afectan directamente a la calidad del servicio que proporcionamos a los clientes, y la calidad y el nivel de servicio afectan directamente a la imagen y el beneficio de la organización. Actualmente, ¿Cuánto puede sobrevivir una organización sin acceso a sus datos?, ¿cuánto tiempo puede sobrevivir sin dar servicio?

Los riesgos que deben tenerse en cuenta son los que potencialmente pueden afectar el funcionamiento de la organización y no los que solo afecten a la infraestructura TI. Para esto debe realizarse una Análisis de Impacto de cada uno de los componentes.

Muchas veces los conceptos de continuidad del negocio y de continuidad del servicio de TI se confunden. También ocurre con los conceptos de Planes de contingencia y recuperación ante desastres. Todos los conceptos anteriores deben tener consideraciones diferentes, las cuales serán desarrolladas a continuación:

Un plan de continuidad del negocio es un concepto muy amplio y debe contemplar no sólo las Tecnología de Información., si no también otros factores como personal, edificios, servicios críticos como correo, teléfono, agua, etc. y otros activos críticos como archivos, contratos, facturas, etc., sin olvidar la imagen de la compañía, recursos humanos, comunicación y medios, etc.

Un plan de continuidad del servicio de TI es aquella parte del plan de continuidad del negocio que se refiere únicamente a los componentes de tecnologías de la información, como sistemas, redes, comunicaciones, procesos y, por supuesto, los datos. El objetivo de un Plan de continuidad del servicio de TI es continuar proporcionando un servicio de TI basado en unos niveles mínimos preestablecidos, que permitan soportar los requerimientos de negocio, en caso de una contingencia. Por ello, los objetivos del plan de continuidad del servicio de TI deben estar alineados con los del plan de continuidad del negocio. Este plan debe tener un alto componente de evaluación de riesgos y también de prevención. Aunque, como hemos comentado, existe una dependencia cada vez mayor de la tecnología, los requerimientos mínimos de servicio de TI varían mucho dependiendo de los sectores, de los entornos y sobre todo de las prioridades que se establezcan.

Un plan de contingencia es así mismo un subconjunto de un plan de continuidad del servicio de TI que contempla como reaccionar ante una contingencia que pueda afectar a la disponibilidad o al nivel del servicio de IT. Una contingencia puede ser un problema de corrupción de datos, un problema de rendimiento, un problema de suministro eléctrico, un problema de un componente software o hardware, errores humanos, intrusión, etc. Este plan se concentrará más en los aspectos correctivos que en los preventivos.

Un plan de recuperación frente a desastres es aquella parte del Plan de Contingencia que aborda aquellas contingencias que, por su gravedad, no permiten continuar prestando el servicio desde el centro local y debe continuarse el servicio desde un nuevo centro. El plan de recuperación frente a desastres debe contemplar la activación o incluso reconstrucción de un nuevo centro con toda o parte de la infraestructura tecnológica, incluyendo hardware, software y comunicaciones, restauración de los datos y restablecimiento del servicio. Este tipo de planes con frecuencia se denomina también recuperación remota o Disaster Recovery (DR). Este plan debe contemplar también la vuelta atrás cuando, tras arreglar las consecuencias del desastre, el servicio pueda ser reanudado en el centro local.

Todos los aspectos de estos planes deben ser evaluados detalladamente, definiendo adecuadamente los objetivos, haciendo un completo análisis de riesgos y un análisis coste-beneficio de las alternativas, considerando como ya hemos dicho medidas tanto preventivas como correctivas, tratando de garantizar no solamente la continuidad del servicio sino también la integridad de los datos. También debemos considerar el riesgo de fallos en las medidas propuestas y establecer planes alternativos.

Una vez definidos, estos planes deben ser mantenidos al día y probados periódicamente (al menos una vez al año y después de cualquier cambio importante) en las circunstancias más adversas posibles. Por ejemplo, ¿podría nuestro plan de desastres ser ejecutado, sin previo aviso, por personas que no hubieran participado en la elaboración del plan o incluso por personas ajenas a nuestra instalación o sin profundos conocimientos técnicos? También debemos revisar y comprobar periódicamente los acuerdos con nuestros proveedores de Hardware, software o servicios, para asegurarnos que pueden responder a nuestras necesidades con la urgencia y en los plazos que definan nuestros planes de continuidad.

La criticidad de los sistemas depende en gran medida del tipo de industria de la empresa, hay industrias que son extremadamente sensibles a las caídas de servicio como por ejemplo los supermercados, las líneas aéreas, los sitios de e-commerce para las cuales cada minuto de servicio TI no disponible implica costos enormes por la no facturación y la perdida de clientes que muy fácilmente pueden optar por la competencia. Para este tipo de organizaciones, casi cualquier inversión esta justificada para mantener el servicio.

Otras organizaciones podrán hacer un análisis de impacto más conservador donde puedan justificar los costos de la implementación de planes de continuidad de servicio frente a las perdidas eventuales que puedan sufrir.

Los procesos necesarios al momento de diseñar un Plan de Continuidad de Servicio:

Definición de los niveles de Servicio:

Se deben definir los niveles de servicio que se deben brindar para cumplir con las expectativas mínimas para que el negocio siga funcionando. Para esto se deben definir objetivos de disponibilidad y performance para cada uno de los componentes y procesos; intervalos en los cuales el servicio debe estar funcionando, duración máxima de caídas, etc.

Administración de la disponibilidad:

Se deben definir todos los procedimientos estándar para mantener los sistemas funcionando bajo situaciones normales de operación

Administración de las Configuraciones:

Se debe poseer un inventario completo y actualizado de todos los componentes de la infraestructura que soporta el negocio

Administración de la Capacidad:

Se debe contar con capacidad suficiente para soportar las transacciones actuales y procedimientos de predicción de carga futura y actualización temprana para prevenir la degradación del servicio.

Administración de los Cambios:

Se debe mantener un control de cada cambio realizado para actualizar el plan de contingencia y asegurarse que no se introduzcan factores peligrosos para la disponibilidad de los sistemas dentro de la infraestructura.

Administración de incidentes:

Para realizar el seguimiento de los problemas y mantener un registro histórico que permita mejorar el plan.

Diagnóstico

El diagnóstico se elabora para identificar problemas existentes, riesgos y fallas que limiten y amenacen la continuidad y posibilidad de crecimiento de la organización. Se realizaran entrevistas, reuniones tanto presenciales como telefónicas con personal propio y sus proveedores. Se analiza la documentación existente y se revisa la configuraciones existentes.

El objetivo de este informe es describir los problemas más importante de la infraestructura y sistemas que apoyan a los distintos procesos de negocio de la organización.

Se presentarán fundamentos que argumentan el porqué es sumamente conveniente y beneficioso implementar una serie de medidas de mitigación de riesgos.

Se utilizarán metodologías para el diseño del mismo comenzando por el Análisis de Riesgo.

Se detallarán las metodologías “estándar” empleadas por las empresas y se citara las mejores prácticas que implementan y dedican recursos para mitigar eficientemente los riesgos, esto es, que permita reducir el impacto que puede producir una catástrofe y/o suministrar las herramientas que les permitan prepararse adecuadamente para atender las emergencias resultantes de una situación no deseada que pudiera ocurrir y de esta manera poder asegurar la continuidad del negocio, intentando minimizar el downtime.