[BDN-020] Hadoop
Este curso cubre desde la introducción a Big Data y la arquitectura de Hadoop hasta el uso práctico de herramientas clave como HDFS, YARN y MapReduce. Incluye temas como comandos HDFS, desarrollo en Java, procesamiento con MapReduce, testing con MRUnit y la integración de Spark y Hive para análisis avanzado de datos distribuidos.
Duración: 16 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa va dirigida a programadores, analistas de datos e ingenieros de software interesados en aprender a gestionar y procesar grandes volúmenes de datos utilizando el ecosistema Hadoop. También es adecuado para aquellos que buscan profundizar en herramientas de Big Data.
Requisitos previos
Es recomendable tener conocimientos básicos de programación (preferiblemente en Java o Python), conceptos de bases de datos y una comprensión general del sistema operativo Linux, ya que se utilizarán comandos de sistema y programación de scripts.
Objetivos
Comprender la arquitectura de Hadoop y el rol de Big Data.
Explorar y gestionar el Hadoop Distributed File System (HDFS).
Desarrollar y optimizar procesos de MapReduce para análisis de datos masivos.
Utilizar MRUnit para probar aplicaciones MapReduce.
Introducirse en Hive para realizar consultas SQL sobre grandes datasets.
Trabajar con Spark y RDDs para procesamiento distribuido eficiente en memoria.
Contenido
Introducción a Hadoop y Big Data
Conceptos clave de Big Data y la importancia de Hadoop
Historia y evolución de Hadoop en el contexto de la tecnología de datos
Fundamentos de HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator) y MapReduce
Hadoop Distributed File System (HDFS)
Principios de funcionamiento y arquitectura de HDFS
Procesos de lectura y escritura de datos en HDFS
Comandos esenciales para interactuar con el sistema de archivos distribuido
Herramientas adicionales para la gestión de archivos en HDFS
Uso de la API de HDFS con Java para desarrollos personalizados
MapReduce
Configuración del entorno para ejecutar aplicaciones MapReduce
Desarrollo de funciones Map y Reduce para procesamiento de datos
Uso de Combiners para optimizar el procesamiento
MRUnit
Instalación de MRUnit para pruebas unitarias en aplicaciones MapReduce
Casos de uso
HIVE
Introducción a Apache Hive como herramienta de consultas SQL sobre Hadoop
Uso de la consola Hive para realizar operaciones
Sintaxis y funciones de HiveQL (Hive Query Language) para análisis de datos
Spark
Introducción a Apache Spark como motor de procesamiento en memoria
Concepto de Resilient Distributed Datasets (RDD) y su papel en Spark
Uso de Spark Shell para el desarrollo interactivo
Aplicación de transformaciones y acciones en RDDs para manipulación de datos
Uso de la API de Spark con Java para procesamiento distribuido
Documentación Recomendada
Mastering Hadoop 3
By Chanchal Singh , Manish Kumar
February 2019 | 544 pages
https://www.packtpub.com/product/mastering-hadoop-3/9781788620444