CPD: alta disponibilidad y recuperación ante desastres — Cuerpo de Gestión de Sistemas e Informática de la Administración del Estado
Test de 32 preguntas con explicaciones justificadas.
Pregunta 1: En un Plan de Recuperación ante Desastres (DRP), el tiempo objetivo de recuperación (RTO) se define principalmente como:
- A) El punto temporal al que deben recuperarse los datos tras una interrupción.
- B) El nivel aceptable de pérdida de datos medido en tiempo.
- C) El tiempo máximo tolerable durante el cual una aplicación puede estar no disponible después de un incidente.
- D) La métrica que define la frecuencia de realización de copias de seguridad.
El RTO (Recovery Time Objective) es, según estándares como ISO 22301 sobre continuidad del negocio, el tiempo máximo aceptable durante el cual un producto, servicio o actividad puede estar interrumpido después de un incidente.
Pregunta 2: Según la Ley 40/2015, de Régimen Jurídico del Sector Público, la obligación de preservar la disponibilidad, integridad y confidencialidad de la información pertenece al principio de:
- A) Eficacia.
- B) Seguridad.
- C) Publicidad.
- D) Responsabilidad limitada.
El artículo 4.i) de la Ley 40/2015 establece como principio general del sector público la 'seguridad, que incluye la preservación de la disponibilidad, integridad, confidencialidad y trazabilidad de la información y de los bienes o servicios'.
Pregunta 3: En el contexto de alta disponibilidad, un cluster activo-activo se caracteriza por:
- A) Tener un nodo primario que procesa todas las solicitudes mientras los secundarios están en espera.
- B) Distribuir la carga de trabajo entre todos los nodos del cluster simultáneamente.
- C) Requiere un periodo de conmutación (failover) más largo que un cluster activo-pasivo.
- D) Ser más económico pero menos escalable que un cluster activo-pasivo.
En un cluster activo-activo, todos los nodos están procesando solicitudes y compartiendo la carga de trabajo de forma simultánea, mejorando el rendimiento y la utilización de recursos. El failover es típicamente más rápido que en activo-pasivo.
Pregunta 4: El estándar internacional ISO 22301 especifica los requisitos para:
- A) Un sistema de gestión de la seguridad de la información (SGSI).
- B) La gestión de la continuidad del negocio.
- C) La gestión de servicios de TI (ITSM).
- D) La evaluación de riesgos informáticos.
La norma ISO 22301:2019 especifica los requisitos para implementar, mantener y mejorar un sistema de gestión de la continuidad del negocio (SGCN), permitiendo a las organizaciones prepararse para interrupciones.
Pregunta 5: ¿Cuál de las siguientes técnicas de replicación de datos entre sitios garantiza un RPO (Objetivo de Punto de Recuperación) de cero?
- A) Replicación asíncrona.
- B) Backup incremental diario.
- C) Replicación síncrona.
- D) Snapshot horario.
La replicación síncrona escribe los datos en el sitio primario y en el secundario de forma simultánea antes de confirmar la operación al host, asegurando que no hay pérdida de datos en caso de desastre, logrando un RPO teórico de cero.
Pregunta 6: En un CPD, la redundancia N+1 hace referencia a:
- A) Un sistema con un único componente sin copias de seguridad.
- B) Un sistema con un componente de reserva para cada componente activo.
- C) Un sistema con un componente de reserva adicional compartido para un conjunto de componentes activos.
- D) Un sistema que requiere al menos dos componentes en fallo para interrumpir el servicio.
La configuración N+1 significa que hay 'N' componentes para soportar la carga normal, y un componente adicional (+1) de reserva que puede tomar el lugar de cualquiera de los 'N' componentes en caso de fallo, mejorando la disponibilidad de forma eficiente.
Pregunta 7: Según el Esquema Nacional de Seguridad (ENS), la categoría de un sistema se determina en función de:
- A) Exclusivamente del valor de la información que trata.
- B) Exclusivamente de los servicios que presta.
- C) Una combinación del valor de la información y de los servicios prestados a los ciudadanos.
- D) El presupuesto anual asignado al sistema.
El artículo 25 del Real Decreto 311/2022, por el que se regula el ENS, establece que la categoría de un sistema se determinará en función de la valoración de la información que maneja y de los servicios que presta a los ciudadanos y a la propia Administración.
Pregunta 8: El concepto de 'Site Shadow' o 'sitio en la sombra' en un plan de DRP se refiere a:
- A) Un CPD principal que no tiene replica geográfica.
- B) Un sitio de recuperación que replica exactamente el principal pero permanece apagado hasta su activación.
- C) Una sala técnica auxiliar dentro del mismo edificio del CPD principal.
- D) Un centro de datos gestionado por un proveedor cloud público.
Un 'Site Shadow' (también llamado Cold Site mejorado o Standby Site) es un sitio de recuperación que tiene una réplica actualizada de la infraestructura (hardware y software) pero que permanece apagado o en modo de muy baja potencia hasta que se declara un desastre, momento en el que se enciende.
Pregunta 9: La técnica de 'failover' en un sistema de alta disponibilidad implica:
- A) El reinicio manual de todos los componentes tras un fallo.
- B) La transferencia automática o manual de las cargas de trabajo desde un componente fallido a uno en reserva.
- C) La desconexión preventiva de un componente para realizar mantenimiento.
- D) La duplicación de todos los procesos de negocio en tiempo real.
El failover es un mecanismo crítico en alta disponibilidad por el cual, ante la detección de un fallo en un componente (servidor, red, almacenamiento), las operaciones se transfieren de forma automática o con intervención manual mínima a un componente redundante o en espera.
Pregunta 10: ¿Qué nivel del estándar TIER del Uptime Institute garantiza una disponibilidad del 99.982% e incliene redundancia en los componentes de distribución eléctrica y enfriamiento?
- A) TIER I.
- B) TIER II.
- C) TIER III.
- D) TIER IV.
Según la clasificación del Uptime Institute, un CPD de nivel TIER III (Concurrently Maintainable) ofrece una disponibilidad del 99.982%, tiene múltiples caminos de distribución de potencia y enfriamiento, y permite el mantenimiento de cualquier componente sin afectar a las cargas de TI.
Pregunta 11: El 'MTBF' (Mean Time Between Failures) es un indicador clave de:
- A) La frecuencia con la que se producen los fallos en un sistema.
- B) El tiempo promedio que tarda un sistema en recuperarse tras un fallo.
- C) La probabilidad de que un sistema funcione correctamente en un momento dado.
- D) El tiempo promedio de operación libre de fallos de un componente o sistema.
El MTBF es una métrica de fiabilidad que representa el tiempo promedio esperado entre fallos consecutivos de un sistema o componente durante su funcionamiento normal. Un MTBF alto indica mayor fiabilidad.
Pregunta 12: En un entorno cloud, la responsabilidad de garantizar la alta disponibilidad de la infraestructura física (servidores, red, almacenamiento) recae en el proveedor según el modelo de servicio:
- A) Solo en el modelo SaaS.
- B) En los modelos IaaS, PaaS y SaaS.
- C) Exclusivamente en el modelo IaaS.
- D) En los modelos IaaS y PaaS, pero no en SaaS.
En el modelo de responsabilidad compartida de cloud, el proveedor (AWS, Azure, Google Cloud) es siempre responsable de la seguridad y disponibilidad 'de' la nube, es decir, de la infraestructura física (hardware, red, instalaciones). Esto aplica a IaaS, PaaS y SaaS. El cliente es responsable de la seguridad 'en' la nube.
Pregunta 13: Un 'Single Point of Failure' (SPOF) en un CPD es:
- A) Un componente cuya avería no afecta al servicio global.
- B) Un elemento del sistema cuya falla provoca la parada total del servicio.
- C) Un protocolo de enrutamiento dinámico.
- D) Una técnica de balanceo de carga.
Un Single Point of Failure (SPOF) o punto único de fallo es cualquier componente cuya falla inutiliza todo el sistema o servicio. La eliminación de SPOFs mediante redundancia es un principio fundamental del diseño para alta disponibilidad y recuperación ante desastres.
Pregunta 14: El Plan de Continuidad de Negocio (BCP) se diferencia del Plan de Recuperación ante Desastres (DRP) principalmente en que el BCP:
- A) Se centra solo en la recuperación técnica de los sistemas de información.
- B) Tiene un ámbito más amplio, incluyendo procesos de negocio críticos, personal y comunicaciones.
- C) Es aplicable únicamente a desastres naturales.
- D) Requiere un RTO más estricto que el DRP.
Según las mejores prácticas (ISO 22301 vs. ISO 27031), el BCP tiene un enfoque holístico de la organización, asegurando la continuidad de las operaciones críticas de negocio (incluyendo personas, procesos, instalaciones y TI). El DRP es un subconjunto del BCP que se enfoca específicamente en la restauración de la infraestructura tecnológica y los datos.
Pregunta 15: La virtualización contribuye a la alta disponibilidad y DR principalmente mediante:
- A) Aumentar el consumo energético del CPD.
- B) Encapsular servidores en máquinas virtuales que pueden migrarse entre hosts físicos.
- C) Eliminar la necesidad de realizar copias de seguridad.
- D) Reducir la complejidad de la gestión de licencias de software.
La virtualización permite la encapsulación de sistemas operativos y aplicaciones en máquinas virtuales (VMs). Esta abstracción posibilita funciones críticas para HA y DR, como vMotion/ Live Migration (migración en caliente sin interrupción), alta disponibilidad a nivel de hypervisor (reinicio automático de VMs) y réplica de VMs entre sitios.
Pregunta 16: Según la Ley 40/2015, los planes de continuidad de la actividad de las Administraciones Públicas deben asegurar, en caso de crisis, el mantenimiento de:
- A) Solo los servicios considerados esenciales por cada organismo.
- B) Todos los servicios en su nivel de prestación habitual.
- C) Únicamente los servicios administrativos internos.
- D) La prestación de los servicios públicos esenciales.
El artículo 12.3 de la Ley 40/2015 establece que 'Las Administraciones Públicas establecerán planes de continuidad de la actividad que aseguren, en caso de crisis, el mantenimiento de la prestación de los servicios públicos esenciales'.
Pregunta 17: En el contexto del ENS, la dimensión de la seguridad que se refiere a que la información y los servicios estén accesibles para los usuarios autorizados cuando lo requieran es:
- A) Confidencialidad.
- B) Integridad.
- C) Autenticidad.
- D) Disponibilidad.
El Anexo II del Real Decreto 311/2022 (ENS) define la disponibilidad como la 'propiedad por la que la información y los servicios están accesibles para ser utilizados por los usuarios o procesos autorizados cuando lo requieran'.
Pregunta 18: Una prueba de 'simulación' de un plan de recuperación ante desastres consiste en:
- A) Ejecutar el plan completo en el sitio de recuperación, interrumpiendo el servicio principal.
- B) Realizar un ejercicio teórico donde se discuten los pasos del plan sin afectar sistemas.
- C) Activar el sitio de recuperación con los equipos reales, pero sin desconectar el sitio primario.
- D) Revisar y actualizar la documentación del plan sin realizar ninguna acción operativa.
Una prueba de simulación (o 'parallel test') es un tipo de prueba de DRP donde se activan y ponen en funcionamiento los sistemas en el sitio de recuperación utilizando datos reales, pero sin desconectar o afectar las operaciones del sitio primario. Esto valida la capacidad operativa del sitio secundario con menor riesgo.
Pregunta 19: La tecnología 'RAID 1' proporciona principalmente:
- A) Incremento de rendimiento mediante división de datos (striping) sin redundancia.
- B) Redundancia mediante mirroring o duplicación exacta de datos en dos o más discos.
- C) Una combinación de striping y paridad distribuida para redundancia y rendimiento.
- D) Un único volumen lógico formado por varios discos sin técnicas de protección.
RAID 1 (Mirroring) es un nivel de RAID que consiste en la duplicación exacta (espejo) de los datos en dos o más discos físicos. Su principal ventaja es la redundancia: si un disco falla, el sistema sigue funcionando con el espejo. No mejora el rendimiento de escritura y tiene un costo alto en capacidad.
Pregunta 20: El 'Objetivo de Punto de Recuperación' (RPO) para un sistema de facturación que realiza una copia de seguridad completa cada 24 horas a las 02:00 AM es, en el peor caso:
- A) 1 hora.
- B) 24 horas.
- C) 2 horas.
- D) 0 horas.
El RPO determina la cantidad máxima de datos que se pueden perder. Si la última copia válida es la de las 02:00 y el desastre ocurre a las 01:59 del día siguiente, los datos generados durante las casi 24 horas previas se habrían perdido. Por lo tanto, el RPO es de 24 horas.
Pregunta 21: ¿Qué elemento NO es típicamente parte del 'kit de recuperación ante desastres' que debe estar disponible en el sitio alternativo?
- A) Documentación actualizada de procedimientos y contactos de emergencia.
- B) Medios de instalación y licencias de software crítico.
- C) Las últimas copias de seguridad físicas o acceso a copias remotas.
- D) El mobiliario ergonómico completo para todo el personal.
Un kit de recuperación (DR kit) incluye elementos esenciales para restaurar operaciones: documentación, medios de software, claves de licencia, contraseñas, contactos, y accesos a backups. El mobiliario ergonómico completo es un lujo no crítico; lo básico (mesas, sillas, conectividad) sí debe estar disponible, pero no con el mismo detalle ergonómico que el sitio principal.
Pregunta 22: El 'balancing' o equilibrio de carga (load balancing) es una técnica utilizada para aumentar la disponibilidad porque:
- A) Reduce el consumo energético de los servidores.
- B) Distribuye las peticiones entre múltiples servidores, evitando la sobrecarga de uno solo.
- C) Comprime los datos antes de enviarlos al usuario.
- D) Encripta el tráfico entre el cliente y el servidor.
Un balanceador de carga distribuye el tráfico de red entrante entre varios servidores backend. Esto mejora la disponibilidad al evitar que un solo servidor se convierta en un punto único de fallo y permitir que si uno falla, los otros puedan seguir atendiendo solicitudes (junto con mecanismos de comprobación de estado).
Pregunta 23: En un entorno de alta disponibilidad, el término 'heartbeat' se refiere a:
- A) Un mensaje periódico entre nodos de un cluster para indicar que están operativos.
- B) La frecuencia del procesador del servidor principal.
- C) El protocolo de sincronización de relojes en la red.
- D) La métrica de rendimiento de las aplicaciones críticas.
En clustering de alta disponibilidad, el 'heartbeat' (latido) es una señal o mensaje periódico que se envía entre los nodos del cluster a través de un enlace privado. Si un nodo deja de recibir los latidos del otro durante un tiempo umbral, interpreta que el otro nodo ha fallado e inicia procedimientos de failover.
Pregunta 24: La definición de 'desastre' en el contexto de un DRP incluye:
- A) Cualquier incidente que cause una interrupción no planificada de los servicios de TI.
- B) Solo eventos naturales como terremotos o inundaciones.
- C) Únicamente fallos hardware en el CPD principal.
- D) Interrupciones programadas para mantenimiento.
Un desastre, para un DRP, es cualquier evento (natural, humano, tecnológico) que cause una interrupción significativa y no planificada de los servicios de TI y/o de negocio, más allá de la capacidad de los procedimientos operativos normales para manejar, requiriendo la activación de un sitio de recuperación alternativo.
Pregunta 25: Según el ENS, la declaración de aplicabilidad (SOA) es un documento que:
- A) Lista todos los controles de seguridad y justifica su aplicación o no aplicación.
- B) Describe la arquitectura técnica de los sistemas de información.
- C) Es el contrato con el proveedor del CPD.
- D) Detalla el procedimiento de respuesta ante incidentes.
Según el Real Decreto 311/2022 (ENS), la Declaración de Aplicabilidad (SOA) es un documento donde la organización enumera los controles del Anexo II, y para cada uno indica si es aplicable, y en caso de serlo, cómo se implementa; o si no es aplicable, la justificación de su exclusión. Es fundamental para la auditoría.
Pregunta 26: Un acuerdo de nivel de servicio (SLA) para un servicio de recuperación ante desastres 'DRaaS' suele especificar de forma contractual:
- A) El RTO y RPO acordados entre el cliente y el proveedor.
- B) El número exacto de técnicos que acudirán en caso de desastre.
- C) El modelo de negocio del cliente.
- D) Las preferencias de software del personal del cliente.
En un contrato de Disaster Recovery as a Service (DRaaS), los objetivos RTO y RPO son las métricas clave de desempeño que se negocian y acuerdan contractualmente en el SLA. El proveedor se compromete a restaurar los servicios dentro del RTO y con una pérdida de datos no mayor al RPO especificado.
Pregunta 27: La fase de 'Análisis de Impacto al Negocio' (BIA) dentro de la planificación de la continuidad tiene como objetivo principal:
- A) Identificar y priorizar los procesos e sistemas críticos y las consecuencias de su interrupción.
- B) Seleccionar las tecnologías de virtualización más adecuadas.
- C) Calcular el presupuesto anual de licencias de software.
- D) Realizar una auditoría de seguridad perimetral.
El Análisis de Impacto al Negocio (BIA) es un proceso fundamental (definido en ISO 22301) que identifica las actividades críticas de la organización, evalúa los impactos (operativos, financieros, reputacionales, legales) de su interrupción a lo largo del tiempo, y determina los requisitos mínimos para la recuperación (RTO, RPO, recursos).
Pregunta 28: En un escenario de conmutación por desastre (failover) a un sitio caliente (hot site), se espera que:
- A) El sitio de recuperación esté vacío y requiera el envío e instalación de hardware tras el desastre.
- B) El sitio de recuperación tenga hardware preparado pero sin sistemas o datos actualizados.
- C) El sitio de recuperación tenga sistemas en ejecución y datos sincronizados, listos para tomar el control casi inmediatamente.
- D) El sitio de recuperación sea una oficina con escritorios y teléfonos, pero sin equipos informáticos.
Un Hot Site es un centro de recuperación totalmente equipado con hardware, software, redes y datos actualizados (mediante replicación síncrona o asíncrona de alta frecuencia). Está listo para asumir las operaciones en un tiempo muy corto (RTO bajo), típicamente minutos u horas.
Pregunta 29: La virtualización de almacenamiento contribuye a la recuperación ante desastres al permitir:
- A) Aumentar la latencia de acceso a los datos.
- B) Crear snapshots y réplicas independientes del hardware físico subyacente.
- C) Reducir el costo de las licencias de base de datos.
- D) Eliminar la necesidad de controladores de dispositivo en los servidores.
La virtualización de almacenamiento abstrae los recursos físicos en pools lógicos. Esto permite funcionalidades clave para DR como la creación de snapshots (instantáneas puntuales) y la replicación de volúmenes o LUNs lógicas entre arrays de almacenamiento físicamente separados, de forma más eficiente y gestionable.
Pregunta 30: ¿Cuál de los siguientes es un requisito típico de un sitio de recuperación 'warm site'?
- A) Tiene hardware idéntico al principal y datos totalmente sincronizados en tiempo real.
- B) No posee hardware preinstalado; se contrata tras el desastre.
- C) Tiene hardware preparado y conectado, pero los datos no están totalmente actualizados.
- D) Está ubicado en el mismo edificio que el CPD principal.
Un Warm Site es un compromiso entre costo y tiempo de recuperación. Tiene el hardware necesario ya instalado y configurado, y las conexiones de red establecidas. Sin embargo, los datos no están completamente sincronizados (pueden tener horas de antigüedad) y las aplicaciones no están en ejecución. Requiere algunos pasos de restauración de datos y puesta en marcha, ofreciendo un RTO y RPO intermedios.
Pregunta 31: El 'Esquema Nacional de Seguridad' (ENS) tiene como objetivo principal:
- A) Establecer la política de seguridad de la información en el ámbito de la Administración Electrónica española.
- B) Regular el mercado de proveedores de servicios cloud en España.
- C) Definir los estándares técnicos para el hardware de los CPDs públicos.
- D) Establecer los precios máximos de las licencias de software en la AGE.
Según el artículo 1 del Real Decreto 311/2022, el ENS tiene por objeto 'establecer la política de seguridad de la información en el ámbito de la Administración Electrónica y constituir los principios y requisitos mínimos que permitan una protección adecuada de la información'.
Pregunta 32: La tecnología de 'snapshot' en sistemas de almacenamiento es útil en un plan de DR porque:
- A) Sustituye permanentemente a las copias de seguridad tradicionales.
- B) Permite crear una imagen punto-en-el-tiempo de un volumen que puede usarse para restaurar o replicar.
- C) Aumenta permanentemente el espacio disponible en el array de discos.
- D) Encripta los datos en reposo automáticamente.
Un snapshot es una instantánea de solo lectura de un sistema de archivos o volumen en un momento específico. Se crea rápidamente y consume poco espacio inicialmente. Es útil para DR ya que proporciona un punto de recuperación consistente que puede ser revertido localmente o replicado a un sitio remoto para restaurar los datos a ese estado conocido.