Cursos - Introducción a Data Lakes y Data Warehouses - 2ª edición - CNTG

Introducción a Data Lakes y Data Warehouses - 2ª edición « Atrás

Tipo de edición	Edición única (desempleados/as y ocupados/as)
Metodología	Virtual
Tipo	CURSO
Matrícula	Gratuita
Fecha inicio	04/09/2026
Fecha fin	04/09/2026
Certificación oficial	No
Nº inscritos	10

PDF

Ficha
Introducción a Data Lakes y Data Warehouses - 2ª edición

Datos de la edición

Periodo de inscripción : 01/07/2026 - 31/08/2026
Horario : Viernes 4 de septiembre de 15:00 a 20:00 horas.
Número de plazas : 20
Periodo de docencia : 04/09/2026 - 04/09/2026
Criterios de selección :
- Por orden de solicitud

Datos generales
Temario

Módulo introductorio y estratégico de 5 horas centrado en el diseño, la gobernanza y la arquitectura de infraestructuras escalables para el almacenamiento de Big Data territorial. Se dotará a los alumnos de los criterios metodológicos e institucionales necesarios para conceptualizar el ecosistema de estructuración de información masiva. Siguiendo las directrices de marcos de referencia globales como el TDWI y el EDM Council, se analizarán en detalle las diferencias arquitectónicas clave entre un Data Lake y un Data Warehouse en entornos SIG (Sistemas de Información Geográfica), los criterios del dato como activo analítico (Data Asset), y las lógicas de ingesta y modelado en capas semánticas (Bronce, Plata, Oro). El curso capacita para el diseño lógico de soluciones, integrando la gestión de la calidad por diseño, el linaje del dato y los principios europeos fundamentales de soberanía tecnológica e interoperabilidad federada bajo el marco de Gaia-X y el estándar CDMC.

Dicha actuación se realizará en el marco del proyecto denominado "Aceleración de ecosistemas de emprendimiento e innovación basados en Gemelos Digitales". Plan de Recuperación, Transformación y Resiliencia - Financiado por la Unión Europea - NextGenerationEU.

Objetivos :

Diseñar y evaluar arquitecturas lógicas de almacenamiento masivo y Big Data, identificando el rol de los catálogos y metadatos dentro de una estrategia corporativa.
Diferenciar de manera cualitativa y cuantitativa los casos de uso óptimos de un Data Lake frente a un Data Warehouse en proyectos de información geográfica (SIG).
Estructurar de manera eficiente capas semánticas de datos garantizando marcos de calidad (Data Quality assessment) y linaje integral del dato.
Comprender y aplicar los esquemas de gobernanza de datos europeos y los estándares globales de gestión en la nube (Gaia-X y CDMC).

Dirigido a :

Arquitectos de datos, responsables TIC, ingenieros de datos, analistas de negocio senior y técnicos de bases de datos de empresas privadas o administración pública que aborden el diseño estratégico y la gobernanza de proyectos con gran volumen de información territorial.

Conocimientos previos recomendados:

Comprensión básica de la estructura y funcionamiento de las bases de datos relacionales (SQL) y conceptos generales de almacenamiento de información.
Familiaridad con los flujos tradicionales de datos o procesos de integración básica (nociones generales de qué es un proceso ETL: Extracción, Transformación y Carga).
Conocimiento general o nociones sobre el ecosistema de Sistemas de Información Geográfica (SIG) o datos espaciales (muy recomendable debido al contexto de Territorio Inteligente del programa).
No se requieren conocimientos avanzados de programación en Python, Scala o infraestructura Big Data nativa, ya que el enfoque del módulo es de diseño lógico, gobierno y arquitectura conceptual.

Perfil del docente :

Profesor universitario e Ingeniero de Datos con amplia trayectoria docente y práctica en el despliegue de soluciones Big Data en clústeres distribuidos.

Duración :
5 horas
Metodología :
Virtual
Matrícula :
Gratuita
Tecnología :
- Xemelgos dixitais/Gemelos digitales
Beneficios :
- Diploma de asistencia
Módulos transversales :
- Igualdad de 5 horas

1. Fundamentos de Arquitectura de Almacenamiento Masivo y Activos de Datos (TDWI & EDM Council): Arquitecturas estructuradas y no estructuradas en el Gemelo Digital. Evolución hacia el Data Lakehouse. Identificación de componentes de datos corporativos, Catálogo de Datos y Glosario de Negocio aplicados.
2. Criterios de Selección Arquitectónica en Entornos SIG: Diferencias de diseño clave entre Data Lake y Data Warehouse (Coste, Latencia y Usabilidad). Clasificación del dato según criticidad y sensibilidad (Privacidad desde el diseño).
3. Modelado de Datos en Capas Semánticas y Gestión de Calidad (Data Quality): Estructuración de datos territoriales en capas de medallas (Bronce, Plata, Oro). Implementación de reglas y controles de calidad en el ciclo de vida del dato para evitar la degradación del repositorio (Data Swamp).
4. Patrones de Ingesta, Optimización y Trazabilidad (Data Lineage): Procesamiento por lotes (Batch) frente a streaming en tiempo real. Estrategias de optimización de flujos y costes. Documentación del linaje del dato desde el sensor territorial hasta el destino analítico para auditorías de confianza.
5. Soberanía Tecnológica, Espacios de Datos y el Estándar CDMC: Fundamentos e implicaciones de Gaia-X. El estándar CDMC (Cloud Data Management Capabilities) aplicado a entornos híbridos. Control de uso, gobernanza federada de nodos y cumplimiento regulatorio en espacios de datos de la UE.