Cloudera Data Analyst Training « Atrás
Tipo de edición Edición única tarde (desempregados/as e ocupados/as)
Metodoloxía Virtual
Tipo CURSO
Matrícula Gratuíta
Data inicio 11/12/2023
Data fin 22/12/2023
Certificación oficial Si
Exame CDP-4001_ CDP Data Analyst (en inglés)
Nº inscritos 41
Datos da edición
  • Período de inscrición : 01/11/2023 - 15/11/2023
  • Proba de selección : 20/11/2023 (18:30)
  • Horario : De luns a venres de 16:30 a 20:30 horas.
  • Número de prazas : 20 (Mínimo 10)
  • Período de docencia : 11/12/2023 - 22/12/2023
  • Criterios de selección :
    • Proba técnica presencial no CNTG en Santiago de Compostela

Este curso céntrase en Apache Hive e Cloudera Impala. Ten como obxectivo ensinar ao alumnado para aplicar análises de datos tradicionais e obter a habilidade de xestionar as ferramentas de intelixencia de negocio para o Big Data. Cloudera presenta os datos das ferramentas que os profesionais necesitan para acceder, manipular, transformar e analizar conxuntos de datos complexos utilizando SQL e linguaxes de scripting similares.

Apache Hive fai que os datos multi-estruturados sexan accesibles a para os analistas, administradoras/es de bases de datos e outras persoas sen coñecementos de programación Java. Cloudera Impala permite, en tempo real, a análise interactiva dos datos almacenados en Hadoop a través dunha contorna de SQL nativo.

As probas de selección serán presenciais e terán lugar na sede do CNTG.

Para a realización da citada proba de selección, é recomendable ter un coñecemento de nivel medio de comprensión lectora en inglés, posto que a proba inclue preguntas en inglés e o exame oficial de certificación ao que se opta neste curso realízase en inglés.

Para seguir o curso é necesario que o equipo conte con altofalantes ou auriculares.

Obxectivos :

Ao finalizar a formación, as/os participantes saberán:

  • A maneira na que o ecosistema open source de ferramentas Big Data aborda desafíos que non poden abarcar os RDBMSs tradicionais
  • Uso de Apache Hive e Apache Impala para proporcionar acceso mediante o uso de SQL aos datos
  • A sintaxe e os formatos de datos que utilizan Hive e Impala, incluíndo as funcións e as subconsultas
  • Crear, modificar e borrar táboas, vistas e bases de datos; cargar datos; e gardar os resultados en consultas
  • Crear e usar particións e diferentes tipos de arquivos
  • Combinar dous ou máis datasets co uso de JOIN ou UNION, segundo sexa conveniente
  • Comprensión detallada das funcións analíticas e as funcións de xanela e uso de ambas
  • Almacenar e consultar estruturas de datos complexas ou aniñadas
  • Procesar e analizar datos semi-estruturados ou non estruturados
  • Técnicas para a optimización das consultas en Hive e Impala
  • Estender as capacidades de Hive e Impala coa utilización de parámetros, formatos personalizados de arquivos, SerDes e scripts externos
  • Determinar se Hive, Impala, un RDBMS ou unha combinación de todos eles é o mellor para unha tarefa determinada
Dirixido a :

Curso dirixido a analistas de datos, especialistas en intelixencia de negocio, desenvolcedoras/es, arquitectas/os de sistemas e administradoras/es de bases de datos. Requírense coñecementos de SQL e estar familiarizado con comandos de Linux. Aínda que non é obrigatorio, recoméndase o manexo dalgunha linguaxe de scripting (Bash scripting, Perl, Python o Ruby). 

É recomendable ter coñecemento de nivel medio en comprensión lectora de inglés.

Perfil do docente :

As/os nosas/os formadoras/es son persoas con máis de 5 anos de experiencia en áreas de alta especialización técnica nos ámbitos de aplicación. Dispoñen das certificacións oficiais do fabricante para impartir estes cursos.

  • Duración :
    40 horas
  • Metodoloxía :
    Virtual
  • Matrícula :
    Gratuíta
  • Tecnoloxía :
    • Cloudera
  • Beneficios :
    • Opción gratuita dun exame de certificación oficial
    • Diploma de asistencia
  • Módulos transversais :
    • Igualdade de 5 horas
  • Introdución
  • Fundamentos Hadoop
  • Introdución a Hive e Impala
  • Consultas con Hive e Impala
  • Operadores comúns e funcións integradas
  • Administración de datos
  • Almacenamento de datos e rendemento
  • Traballando con múltiples Datasets
  • Funcións analíticas e funcións de xanela
  • Datos complexos
  • Análises de texto
  • Optimización Hive
  • Optimización de Impala
  • Estendendo Hive e Impala
  • Elección da mellor opción