Este curso cubre desde la introducción a Big Data y la arquitectura de Hadoop hasta el uso práctico de herramientas clave como HDFS, YARN y MapReduce. Incluye temas como comandos HDFS, desarrollo en Java, procesamiento con MapReduce, testing con MRUnit y la integración de Spark y Hive para análisis avanzado de datos distribuidos.
Duración: 16 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa va dirigida a programadores, analistas de datos e ingenieros de software interesados en aprender a gestionar y procesar grandes volúmenes de datos utilizando el ecosistema Hadoop. También es adecuado para aquellos que buscan profundizar en herramientas de Big Data.
Requisitos previos
Es recomendable tener conocimientos básicos de programación (preferiblemente en Java o Python), conceptos de bases de datos y una comprensión general del sistema operativo Linux, ya que se utilizarán comandos de sistema y programación de scripts.
Objetivos
- Comprender la arquitectura de Hadoop y el rol de Big Data.
- Explorar y gestionar el Hadoop Distributed File System (HDFS).
- Desarrollar y optimizar procesos de MapReduce para análisis de datos masivos.
- Utilizar MRUnit para probar aplicaciones MapReduce.
- Introducirse en Hive para realizar consultas SQL sobre grandes datasets.
- Trabajar con Spark y RDDs para procesamiento distribuido eficiente en memoria.