Cursos - Cloudera Data Analyst Training - CNTG - Centro de Novas Tecnoloxías de Galicia

Cloudera Data Analyst Training « Atrás

Tipo de edición	Edición única tarde (desempregados/as e ocupados/as)
Metodoloxía	Virtual
Tipo	CURSO
Matrícula	Gratuíta
Data inicio	11/12/2023
Data fin	22/12/2023
Certificación oficial	Si
Exame	CDP-4001_ CDP Data Analyst (en inglés)
Nº inscritos	41

PDF

Ficha
Cloudera Data Analyst Training

Datos da edición

Período de inscrición : 01/11/2023 - 15/11/2023
Proba de selección : 20/11/2023 (18:30)
Horario : De luns a venres de 16:30 a 20:30 horas.
Número de prazas : 20 (Mínimo 10)
Período de docencia : 11/12/2023 - 22/12/2023
Criterios de selección :
- Proba técnica presencial no CNTG en Santiago de Compostela

Datos xerais
Temario

Este curso céntrase en Apache Hive e Cloudera Impala. Ten como obxectivo ensinar ao alumnado para aplicar análises de datos tradicionais e obter a habilidade de xestionar as ferramentas de intelixencia de negocio para o Big Data. Cloudera presenta os datos das ferramentas que os profesionais necesitan para acceder, manipular, transformar e analizar conxuntos de datos complexos utilizando SQL e linguaxes de scripting similares.

Apache Hive fai que os datos multi-estruturados sexan accesibles a para os analistas, administradoras/es de bases de datos e outras persoas sen coñecementos de programación Java. Cloudera Impala permite, en tempo real, a análise interactiva dos datos almacenados en Hadoop a través dunha contorna de SQL nativo.

As probas de selección serán presenciais e terán lugar na sede do CNTG.

Para a realización da citada proba de selección, é recomendable ter un coñecemento de nivel medio de comprensión lectora en inglés, posto que a proba inclue preguntas en inglés e o exame oficial de certificación ao que se opta neste curso realízase en inglés.

Para seguir o curso é necesario que o equipo conte con altofalantes ou auriculares.

Obxectivos :

Ao finalizar a formación, as/os participantes saberán:

A maneira na que o ecosistema open source de ferramentas Big Data aborda desafíos que non poden abarcar os RDBMSs tradicionais
Uso de Apache Hive e Apache Impala para proporcionar acceso mediante o uso de SQL aos datos
A sintaxe e os formatos de datos que utilizan Hive e Impala, incluíndo as funcións e as subconsultas
Crear, modificar e borrar táboas, vistas e bases de datos; cargar datos; e gardar os resultados en consultas
Crear e usar particións e diferentes tipos de arquivos
Combinar dous ou máis datasets co uso de JOIN ou UNION, segundo sexa conveniente
Comprensión detallada das funcións analíticas e as funcións de xanela e uso de ambas
Almacenar e consultar estruturas de datos complexas ou aniñadas
Procesar e analizar datos semi-estruturados ou non estruturados
Técnicas para a optimización das consultas en Hive e Impala
Estender as capacidades de Hive e Impala coa utilización de parámetros, formatos personalizados de arquivos, SerDes e scripts externos
Determinar se Hive, Impala, un RDBMS ou unha combinación de todos eles é o mellor para unha tarefa determinada

Dirixido a :

Curso dirixido a analistas de datos, especialistas en intelixencia de negocio, desenvolcedoras/es, arquitectas/os de sistemas e administradoras/es de bases de datos. Requírense coñecementos de SQL e estar familiarizado con comandos de Linux. Aínda que non é obrigatorio, recoméndase o manexo dalgunha linguaxe de scripting (Bash scripting, Perl, Python o Ruby).

É recomendable ter coñecemento de nivel medio en comprensión lectora de inglés.

Perfil do docente :

As/os nosas/os formadoras/es son persoas con máis de 5 anos de experiencia en áreas de alta especialización técnica nos ámbitos de aplicación. Dispoñen das certificacións oficiais do fabricante para impartir estes cursos.

Duración :
40 horas
Metodoloxía :
Virtual
Matrícula :
Gratuíta
Tecnoloxía :
- Cloudera
Beneficios :
- Opción gratuita dun exame de certificación oficial
- Diploma de asistencia
Módulos transversais :
- Igualdade de 5 horas

Introdución
Fundamentos Hadoop
Introdución a Hive e Impala
Consultas con Hive e Impala
Operadores comúns e funcións integradas
Administración de datos
Almacenamento de datos e rendemento
Traballando con múltiples Datasets
Funcións analíticas e funcións de xanela
Datos complexos
Análises de texto
Optimización Hive
Optimización de Impala
Estendendo Hive e Impala
Elección da mellor opción