Cloudera Data Analyst Training « Atrás
Tipo de edición Edición única tarde (desempleados/as y ocupados/as
Metodología Virtual
Tipo CURSO
Matrícula Gratuita
Fecha inicio 11/12/2023
Fecha fin 22/12/2023
Certificación oficial Si
Examen CDP-4001_ CDP Data Analyst (en inglés)
Nº inscritos 41
Datos de la edición
  • Periodo de inscripción : 01/11/2023 - 15/11/2023
  • Prueba de selección : 20/11/2023 (18:30)
  • Horario : De lunes a viernes de 16:30 a 20:30 horas.
  • Número de plazas : 20 (Mínimo 10)
  • Periodo de docencia : 11/12/2023 - 22/12/2023
  • Criterios de selección :
    • Prueba técnica presencial en el CNTG en Santiago de Compostela

Este curso se centra en Apache Hive y Cloudera Impala. Tiene como objetivo enseñar al alumnado a aplicar análisis de datos tradicionales y obtener la habilidad de gestionar las herramientas de inteligencia de negocio para el Big Data. Cloudera presenta los datos de las herramientas que los profesionales necesitan para acceder, manipular, transformar y analizar conjuntos de datos complejos utilizando SQL y lenguajes de scripting similares.

Apache Hive hace que los datos multi-estructurados sean accesibles para los analistas, administradoras/es de bases de datos y otras personas sin conocimientos de programación Java. Cloudera Impala permite, en tiempo real, el análisis interactivo de los datos almacenados en Hadoop a través de un entorno de SQL nativo.

Las pruebas de selección serán presenciales y tendrán lugar en la sede del CNTG.

Para la realización de la citada prueba de selección, es recomendable tener un conocimiento de nivel medio de comprensión lectora en inglés, puesto que la prueba incluye preguntas en inglés y el examen oficial de certificación al que se opta en este curso  se realiza en inglés.

Para seguir el curso es necesario que el equipo cuente con altavoces o auriculares.

Objetivos :

Al finalizar la formación, las/los participantes sabrán:

  • La manera en la que el ecosistema open source de herramientas Big Data aborda desafíos que no pueden abarcar los RDBMSs tradicionales
  • Uso de Apache Hive y Apache Impala para proporcionar acceso mediante el uso de SQL a los datos
  • La sintaxis y los formatos de datos que utilizan Hive e Impala, incluyendo las funciones y las subconsultas
  • Crear, modificar y borrar tablas, vistas y bases de datos; cargar datos; y guardar los resultados en consultas
  • Crear y usar particiones y diferentes tipos de archivos
  • Combinar dos o más datasets con el uso de JOIN o UNION según sea conveniente
  • Comprensión detallada de las funciones analíticas y las funciones de ventana y uso de ambas
  • Almacenar y consultar estructuras de datos complejas o anidadas
  • Procesar y analizar datos semi-estructurados o no estructurados
  • Técnicas para la optimización de las consultas en Hive e Impala
  • Extender las capacidades de Hive e Impala con la utilización de parámetros, formatos personalizados de archivos, SerDes y scripts externos
  • Determinar si Hive, Impala, un RDBMS o una combinación de todos ellos es lo mejor para una tarea determinada
Dirigido a :

Curso dirigido a analistas de datos, especialistas en inteligencia de negocio, desarrolladoras/es, arquitectas/os de sistemas y administradoras/es de bases de datos. Se requieren conocimientos de SQL y estar familiarizado con comandos de Linux. Aunque no es obligatorio, se recomienda el manejo de algún lenguaje de scripting (Bash scripting, Perl, Python o Ruby). 

Es recomendable tener conocimiento de nivel medio en comprensión lectora de inglés.

Perfil del docente :

Nuestras/os formadoras/es son personas con más de 5 años de experiencia en áreas de alta especialización técnica en los ámbitos de aplicación. Disponen de las certificaciones oficiales del fabricante para impartir estos cursos.

  • Duración :
    40 horas
  • Metodología :
    Virtual
  • Matrícula :
    Gratuita
  • Tecnología :
    • Cloudera
  • Beneficios :
    • Opción gratuita de un examen de certificación oficial
    • Diploma de asistencia
  • Módulos transversales :
    • Igualdad de 5 horas
  • Introducción
  • Fundamentos Hadoop
  • Introducción a Hive e Impala
  • Consultas con Hive e Impala
  • Operadores comunes y funciones integradas
  • Administración de datos
  • Almacenamiento de datos y rendimiento
  • Trabajando con múltiples Datasets
  • Funciones analíticas y funciones de ventana
  • Datos complejos
  • Análisis de texto
  • Optimización Hive
  • Optimización de Impala
  • Extendiendo Hive e Impala
  • Elección de la mejor opción