Minería de datos, Big Data y análisis avanzado — Cuerpo de Gestión de Sistemas e Informática de la Administración del Estado
Test de 30 preguntas con explicaciones justificadas.
Pregunta 1: ¿Cuál de las siguientes es una de las '3 V's' originales que definen Big Data?
- A) Veracidad
- B) Variabilidad
- C) Volumen
- D) Valor
El concepto original de Big Data, introducido por Doug Laney, se define por las 3 V's: Volumen, Velocidad y Variedad. Veracidad, Variabilidad y Valor son extensiones posteriores.
Pregunta 2: En el proceso de minería de datos CRISP-DM, ¿cuál es la fase que sigue a la comprensión del negocio?
- A) Comprensión de los datos
- B) Modelado
- C) Preparación de los datos
- D) Evaluación
Según la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining), las fases son: 1. Comprensión del negocio, 2. Comprensión de los datos, 3. Preparación de los datos, 4. Modelado, 5. Evaluación, 6. Despliegue.
Pregunta 3: ¿Qué algoritmo de aprendizaje no supervisado se utiliza comúnmente para agrupar datos en clusters basados en similitud?
- A) Árboles de decisión
- B) K-means
- C) Regresión lineal
- D) Máquinas de vectores de soporte
K-means es un algoritmo de clustering (agrupamiento) no supervisado que divide datos en k clusters basándose en la distancia a los centroides. Los árboles de decisión, regresión lineal y SVM son generalmente supervisados.
Pregunta 4: Según el RGPD, ¿qué principio implica que los datos personales deben ser adecuados, pertinentes y limitados a lo necesario en relación con los fines para los que son tratados?
- A) Licitud, lealtad y transparencia
- B) Limitación de la finalidad
- C) Minimización de datos
- D) Exactitud
El artículo 5.1.c del RGPD establece el principio de minimización de datos: 'los datos personales serán adecuados, pertinentes y limitados a lo necesario en relación con los fines para los que son tratados'.
Pregunta 5: ¿Qué componente de la arquitectura Lambda se encarga del procesamiento por lotes de los datos?
- A) Capa de velocidad
- B) Capa de servicio
- C) Capa de base de datos
- D) Capa de batch
En la arquitectura Lambda, la capa de batch (por lotes) procesa todos los datos de manera exhaustiva y genera vistas precalculadas. La capa de velocidad se encarga del procesamiento en tiempo real.
Pregunta 6: ¿Qué técnica de aprendizaje automático se utiliza para modelar relaciones secuenciales y dependencias temporales?
- A) Regresión lineal
- B) Máquinas de vectores de soporte
- C) Árboles de decisión
- D) Redes neuronales recurrentes (RNN)
Las redes neuronales recurrentes (RNN) son un tipo de red neuronal diseñada para manejar datos secuenciales mediante conexiones recurrentes que permiten mantener información de estados anteriores.
Pregunta 7: En Hadoop, ¿qué componente es responsable de gestionar los recursos y programar tareas en un clúster?
- A) HDFS
- B) MapReduce
- C) YARN
- D) Hive
YARN (Yet Another Resource Negotiator) es el gestor de recursos y planificador de tareas en la arquitectura Hadoop 2.x, separando la gestión de recursos del modelo de procesamiento MapReduce.
Pregunta 8: Según la LOPDGDD, ¿cuál es la autoridad de control en España encargada de velar por el cumplimiento del RGPD?
- A) Agencia Española de Protección de Datos (AEPD)
- B) Instituto Nacional de Ciberseguridad (INCIBE)
- C) Ministerio de Asuntos Económicos y Transformación Digital
- D) Comisión Nacional de los Mercados y la Competencia
El artículo 47 de la LOPDGDD designa a la Agencia Española de Protección de Datos (AEPD) como la autoridad de control independiente encargada de velar por el cumplimiento del RGPD en España.
Pregunta 9: ¿Qué tipo de análisis predictivo se utiliza cuando la variable objetivo es categórica?
- A) Regresión
- B) Clasificación
- C) Clustering
- D) Series temporales
La clasificación es una técnica de minería de datos y aprendizaje automático supervisado donde la variable objetivo es categórica (etiquetas discretas). La regresión se usa para variables continuas.
Pregunta 10: En el modelo de referencia OSI, ¿en qué capa se sitúan protocolos como TCP y UDP?
- A) Capa de red
- B) Capa de transporte
- C) Capa de sesión
- D) Capa de presentación
En el modelo OSI, la capa 4 (transporte) es responsable de la transferencia de datos extremo a extremo y incluye protocolos como TCP (Transmission Control Protocol) y UDP (User Datagram Protocol).
Pregunta 11: ¿Qué herramienta de Big Data se utiliza para la transferencia de datos entre Hadoop y bases de datos relacionales?
- A) Apache Storm
- B) Apache Hive
- C) Apache Flume
- D) Apache Sqoop
Apache Sqoop es una herramienta diseñada para transferir eficientemente datos entre Hadoop y almacenes de datos estructurados como bases de datos relacionales.
Pregunta 12: ¿Qué medida de evaluación de un modelo de clasificación se define como la proporción de predicciones positivas correctas respecto al total de predicciones positivas?
- A) Sensibilidad
- B) Especificidad
- C) Precisión
- D) Exactitud
La precisión (precision) en evaluación de modelos de clasificación es el cociente entre los verdaderos positivos y la suma de verdaderos positivos y falsos positivos. Mide la calidad de las predicciones positivas.
Pregunta 13: En el contexto de la Ley 40/2015 de Régimen Jurídico del Sector Público, ¿qué principio debe regir el uso de medios electrónicos en la administración?
- A) Principio de eficiencia
- B) Principio de transparencia
- C) Principio de interoperabilidad
- D) Principio de seguridad
El artículo 4 de la Ley 40/2015 establece los principios generales de actuación de las administraciones públicas, incluyendo el principio de interoperabilidad como garantía del uso de medios electrónicos.
Pregunta 14: ¿Qué técnica de minería de datos se utiliza para descubrir relaciones de asociación entre variables, como en el análisis de la cesta de la compra?
- A) Reglas de asociación
- B) Árboles de decisión
- C) Redes neuronales
- D) Análisis de secuencias
Las reglas de asociación son una técnica de minería de datos para descubrir relaciones interesantes entre variables en grandes conjuntos de datos, comúnmente usado en análisis de mercado (por ejemplo, el algoritmo Apriori).
Pregunta 15: En el modelo de madurez de capacidades (CMM) para ciencia de datos, ¿qué nivel se caracteriza por procesos definidos y cuantitativamente gestionados?
- A) Nivel 2: Gestionado
- B) Nivel 3: Definido
- C) Nivel 4: Gestionado cuantitativamente
- D) Nivel 5: Optimización
En el modelo CMM (Capability Maturity Model), el nivel 4 (Gestionado cuantitativamente) implica que los procesos están controlados mediante técnicas estadísticas y cuantitativas.
Pregunta 16: ¿Qué estándar internacional proporciona un marco para la gestión de la seguridad de la información?
- A) ISO 9001
- B) ISO 27001
- C) ISO 20000
- D) ISO 31000
La norma ISO/IEC 27001 especifica los requisitos para establecer, implementar, mantener y mejorar un sistema de gestión de seguridad de la información (SGSI).
Pregunta 17: En el contexto de Big Data, ¿qué tecnología permite el procesamiento distribuido de grandes conjuntos de datos en memoria, mejorando el rendimiento respecto a MapReduce?
- A) Apache Spark
- B) Apache Hive
- C) Apache Kafka
- D) Apache Flume
Apache Spark es un motor de procesamiento de datos distribuido que utiliza memoria RAM para acelerar el procesamiento, ofreciendo mejor rendimiento que el modelo MapReduce basado en disco.
Pregunta 18: ¿Qué tipo de base de datos NoSQL es adecuada para almacenar datos en formato de documentos JSON?
- A) Bases de datos clave-valor
- B) Bases de datos orientadas a documentos
- C) Bases de datos de grafos
- D) Bases de datos columnares
Las bases de datos orientadas a documentos, como MongoDB, almacenan datos en formatos semiestructurados como JSON, BSON o XML, permitiendo consultas flexibles.
Pregunta 19: Según el RGPD, ¿qué derecho tiene el interesado a obtener del responsable del tratamiento la confirmación de si se están tratando datos personales que le conciernen?
- A) Derecho de acceso
- B) Derecho de rectificación
- C) Derecho de oposición
- D) Derecho de limitación del tratamiento
El artículo 15 del RGPD regula el derecho de acceso del interesado, que incluye la confirmación de si se tratan sus datos personales y, en su caso, acceso a los mismos.
Pregunta 20: En minería de datos, ¿qué técnica se utiliza para predecir valores numéricos continuos?
- A) Clasificación
- B) Regresión
- C) Clustering
- D) Reglas de asociación
La regresión es una técnica de aprendizaje supervisado que modela la relación entre variables independientes y una variable dependiente continua, permitiendo predecir valores numéricos.
Pregunta 21: ¿Qué componente de Hadoop es un sistema de archivos distribuido que proporciona almacenamiento de alta tolerancia a fallos?
- A) HBase
- B) HDFS
- C) YARN
- D) ZooKeeper
HDFS (Hadoop Distributed File System) es el sistema de archivos distribuido de Hadoop diseñado para almacenar grandes volúmenes de datos en clústeres de hardware commodity con alta tolerancia a fallos.
Pregunta 22: En el contexto de la Ley 40/2015, ¿qué principio garantiza que los sistemas y tecnologías de la información permitan a las administraciones públicas compartir información y conocimiento?
- A) Principio de eficacia
- B) Principio de transparencia
- C) Principio de seguridad
- D) Principio de interoperabilidad
El artículo 4 de la Ley 40/2015 establece el principio de interoperabilidad como garantía para que los sistemas y tecnologías de la información permitan a las administraciones públicas compartir información y conocimiento.
Pregunta 23: En el contexto de la Ley 39/2015 de Procedimiento Administrativo Común, ¿qué principio establece que los ciudadanos pueden interactuar con las administraciones por medios electrónicos?
- A) Principio de transparencia
- B) Principio de eficacia
- C) Principio de simplicidad
- D) Principio de interoperabilidad
El artículo 4 de la Ley 39/2015 establece el principio de interoperabilidad como garantía para que los ciudadanos puedan interactuar con las administraciones por medios electrónicos.
Pregunta 24: ¿Qué algoritmo de aprendizaje automático se basa en la idea de encontrar el hiperplano que maximiza el margen entre clases?
- A) Árboles de decisión
- B) K-vecinos más cercanos
- C) Máquinas de vectores de soporte (SVM)
- D) Redes neuronales artificiales
Las máquinas de vectores de soporte (SVM) son algoritmos de aprendizaje supervisado que buscan el hiperplano óptimo en un espacio de características para separar clases maximizando el margen.
Pregunta 25: En el modelo de referencia TCP/IP, ¿qué capa es equivalente a la capa de red del modelo OSI?
- A) Capa de aplicación
- B) Capa de transporte
- C) Capa de internet
- D) Capa de acceso a la red
En el modelo TCP/IP, la capa de internet (también llamada capa de red) corresponde a la capa 3 (red) del modelo OSI y se encarga del direccionamiento y enrutamiento de paquetes.
Pregunta 26: ¿Qué técnica de minería de datos se utiliza para predecir la probabilidad de que ocurra un evento binario?
- A) Regresión logística
- B) Árboles de decisión
- C) Análisis de cluster
- D) Reglas de asociación
La regresión logística es un modelo estadístico utilizado para predecir la probabilidad de un evento binario (dos clases posibles) basándose en una o más variables independientes.
Pregunta 27: Según el Esquema Nacional de Seguridad (ENS), ¿qué nivel de seguridad es el mínimo requerido para sistemas que tratan información catalogada como de nivel medio?
- A) Bajo
- B) Medio
- C) Alto
- D) Básico
El Real Decreto 311/2022, que aprueba el ENS, establece que los sistemas que manejan información clasificada como de nivel medio deben tener un nivel de seguridad medio.
Pregunta 28: ¿Qué tipo de aprendizaje automático se caracteriza por aprender a partir de recompensas y castigos en un entorno?
- A) Aprendizaje supervisado
- B) Aprendizaje no supervisado
- C) Aprendizaje semi-supervisado
- D) Aprendizaje por refuerzo
El aprendizaje por refuerzo es un tipo de aprendizaje automático donde un agente aprende a tomar decisiones mediante la interacción con un entorno, recibiendo recompensas o castigos.
Pregunta 29: Según el Esquema Nacional de Interoperabilidad (ENI), ¿qué norma técnica establece las condiciones para la digitalización de documentos?
- A) Norma Técnica de Interoperabilidad de Política de firma electrónica
- B) Norma Técnica de Interoperabilidad de Documento Electrónico
- C) Norma Técnica de Interoperabilidad de Expediente Electrónico
- D) Norma Técnica de Interoperabilidad de Digitalización de Documentos
La Norma Técnica de Interoperabilidad de Digitalización de Documentos (NTI de Digitalización), aprobada por Resolución de 5 de julio de 2011, establece las condiciones técnicas para garantizar la calidad y autenticidad de los documentos digitalizados.
Pregunta 30: ¿Qué protocolo de comunicación es ampliamente utilizado en sistemas de mensajería distribuida y streaming de datos?
- A) HTTP
- B) FTP
- C) SMTP
- D) AMQP
AMQP (Advanced Message Queuing Protocol) es un protocolo estándar abierto para mensajería orientada a middleware, utilizado en sistemas de mensajería distribuida como RabbitMQ, y es adecuado para streaming de datos.