Apache Spark y procesamiento masivo territorial - 2ª edición « Atrás
Tipo de edición Edición única (desempleados/as y ocupados/as)
Metodología Virtual
Tipo CURSO
Matrícula Gratuita
Fecha inicio 14/09/2026
Fecha fin 17/09/2026
Certificación oficial No
Nº inscritos 1
Datos de la edición
  • Periodo de inscripción : 01/07/2026 - 31/08/2026
  • Horario : Lunes 14 y jueves 17 de septiembre de 15:00 a 20:00 horas.
  • Número de plazas : 20
  • Periodo de docencia : 14/09/2026 - 17/09/2026
  • Criterios de selección :
    • Por orden de solicitud

Especialización práctica de 10 horas en la que los profesionales aprenderán a orquestar pipelines de datos usando ecosistemas distribuidos basados en Apache Spark (PySpark). Utilizando entornos Jupyter/Colab, transformarán conjuntos de datos crudos en capas analíticas limpias y óptimas para la integración en plataformas geoespaciales.

Dicha actuación se realizará en el marco del proyecto denominado "Aceleración de ecosistemas de emprendimiento e innovación basados en Gemelos Digitales". Plan de Recuperación, Transformación y Resiliencia - Financiado por la Unión Europea - NextGenerationEU.

Objetivos :
  1. Comprender los fundamentos de la computación distribuida.
  2. Desarrollar flujos ETL masivos en PySpark.
  3. Limpiar y transformar dataframes territoriales complejos.
Dirigido a :

Científicos de datos, Data Engineers, analistas de datos y desarrolladores Python orientados a la gestión ETL de información geográfica.

Perfil del docente :

Data Engineer senior experto en ecosistemas Hadoop/Spark y programación Python, con perfil altamente técnico y experiencia en optimización de algoritmos distribuidos.

  • Duración :
    10 horas
  • Metodología :
    Virtual
  • Matrícula :
    Gratuita
  • Tecnología :
    • Xemelgos dixitais/Gemelos digitales
  • Beneficios :
    • Diploma de asistencia
  • Módulos transversales :
    • Igualdad de 5 horas
  1. Fundamentos de computación distribuida y Apache Spark.
  2. Gestión de Dataframes y ejecución de sentencias Spark SQL.
  3. Orquestación de flujos ETL masivos sobre datos espaciales.
  4. Técnicas de indexación espacial (Geohashing, particionamiento).
  5. Automatización de pipelines mediante Jupyter Notebooks.