Introducción a Data Lakes y Data Warehouses - 2ª edición « Atrás
Tipo de edición Edición única (desempleados/as y ocupados/as)
Metodología Virtual
Tipo CURSO
Matrícula Gratuita
Fecha inicio 04/09/2026
Fecha fin 04/09/2026
Certificación oficial No
Nº inscritos 10
Datos de la edición
  • Periodo de inscripción : 01/07/2026 - 31/08/2026
  • Horario : Viernes 4 de septiembre de 15:00 a 20:00 horas.
  • Número de plazas : 20
  • Periodo de docencia : 04/09/2026 - 04/09/2026
  • Criterios de selección :
    • Por orden de solicitud

Módulo introductorio y estratégico de 5 horas centrado en el diseño, la gobernanza y la arquitectura de infraestructuras escalables para el almacenamiento de Big Data territorial. Se dotará a los alumnos de los criterios metodológicos e institucionales necesarios para conceptualizar el ecosistema de estructuración de información masiva. Siguiendo las directrices de marcos de referencia globales como el TDWI y el EDM Council, se analizarán en detalle las diferencias arquitectónicas clave entre un Data Lake y un Data Warehouse en entornos SIG (Sistemas de Información Geográfica), los criterios del dato como activo analítico (Data Asset), y las lógicas de ingesta y modelado en capas semánticas (Bronce, Plata, Oro). El curso capacita para el diseño lógico de soluciones, integrando la gestión de la calidad por diseño, el linaje del dato y los principios europeos fundamentales de soberanía tecnológica e interoperabilidad federada bajo el marco de Gaia-X y el estándar CDMC.

Dicha actuación se realizará en el marco del proyecto denominado "Aceleración de ecosistemas de emprendimiento e innovación basados en Gemelos Digitales". Plan de Recuperación, Transformación y Resiliencia - Financiado por la Unión Europea - NextGenerationEU.

Objetivos :

Diseñar y evaluar arquitecturas lógicas de almacenamiento masivo y Big Data, identificando el rol de los catálogos y metadatos dentro de una estrategia corporativa.
Diferenciar de manera cualitativa y cuantitativa los casos de uso óptimos de un Data Lake frente a un Data Warehouse en proyectos de información geográfica (SIG).
Estructurar de manera eficiente capas semánticas de datos garantizando marcos de calidad (Data Quality assessment) y linaje integral del dato.
Comprender y aplicar los esquemas de gobernanza de datos europeos y los estándares globales de gestión en la nube (Gaia-X y CDMC).
 

Dirigido a :

Arquitectos de datos, responsables TIC, ingenieros de datos, analistas de negocio senior y técnicos de bases de datos de empresas privadas o administración pública que aborden el diseño estratégico y la gobernanza de proyectos con gran volumen de información territorial.

Conocimientos previos recomendados:

  • Comprensión básica de la estructura y funcionamiento de las bases de datos relacionales (SQL) y conceptos generales de almacenamiento de información.
  • Familiaridad con los flujos tradicionales de datos o procesos de integración básica (nociones generales de qué es un proceso ETL: Extracción, Transformación y Carga).
  • Conocimiento general o nociones sobre el ecosistema de Sistemas de Información Geográfica (SIG) o datos espaciales (muy recomendable debido al contexto de Territorio Inteligente del programa).
  • No se requieren conocimientos avanzados de programación en Python, Scala o infraestructura Big Data nativa, ya que el enfoque del módulo es de diseño lógico, gobierno y arquitectura conceptual.
Perfil del docente :

Profesor universitario e Ingeniero de Datos con amplia trayectoria docente y práctica en el despliegue de soluciones Big Data en clústeres distribuidos.

  • Duración :
    5 horas
  • Metodología :
    Virtual
  • Matrícula :
    Gratuita
  • Tecnología :
    • Xemelgos dixitais/Gemelos digitales
  • Beneficios :
    • Diploma de asistencia
  • Módulos transversales :
    • Igualdad de 5 horas

1. Fundamentos de Arquitectura de Almacenamiento Masivo y Activos de Datos (TDWI & EDM Council): Arquitecturas estructuradas y no estructuradas en el Gemelo Digital. Evolución hacia el Data Lakehouse. Identificación de componentes de datos corporativos, Catálogo de Datos y Glosario de Negocio aplicados. 
2. Criterios de Selección Arquitectónica en Entornos SIG: Diferencias de diseño clave entre Data Lake y Data Warehouse (Coste, Latencia y Usabilidad). Clasificación del dato según criticidad y sensibilidad (Privacidad desde el diseño). 
3. Modelado de Datos en Capas Semánticas y Gestión de Calidad (Data Quality): Estructuración de datos territoriales en capas de medallas (Bronce, Plata, Oro). Implementación de reglas y controles de calidad en el ciclo de vida del dato para evitar la degradación del repositorio (Data Swamp). 
4. Patrones de Ingesta, Optimización y Trazabilidad (Data Lineage): Procesamiento por lotes (Batch) frente a streaming en tiempo real. Estrategias de optimización de flujos y costes. Documentación del linaje del dato desde el sensor territorial hasta el destino analítico para auditorías de confianza. 
5. Soberanía Tecnológica, Espacios de Datos y el Estándar CDMC: Fundamentos e implicaciones de Gaia-X. El estándar CDMC (Cloud Data Management Capabilities) aplicado a entornos híbridos. Control de uso, gobernanza federada de nodos y cumplimiento regulatorio en espacios de datos de la UE.