[BDN-020] Hadoop

Este curso cubre desde la introducción a Big Data y la arquitectura de Hadoop hasta el uso práctico de herramientas clave como HDFS, YARN y MapReduce. Incluye temas como comandos HDFS, desarrollo en Java, procesamiento con MapReduce, testing con MRUnit y la integración de Spark y Hive para análisis avanzado de datos distribuidos.

Duración:                     16 horas

Perfil:                            Avanzado

Dirigido a

Esta acción formativa va dirigida a programadores, analistas de datos e ingenieros de software interesados en aprender a gestionar y procesar grandes volúmenes de datos utilizando el ecosistema Hadoop. También es adecuado para aquellos que buscan profundizar en herramientas de Big Data.

Requisitos previos 

Es recomendable tener conocimientos básicos de programación (preferiblemente en Java o Python), conceptos de bases de datos y una comprensión general del sistema operativo Linux, ya que se utilizarán comandos de sistema y programación de scripts.

Objetivos

  • Comprender la arquitectura de Hadoop y el rol de Big Data.
  • Explorar y gestionar el Hadoop Distributed File System (HDFS).
  • Desarrollar y optimizar procesos de MapReduce para análisis de datos masivos.
  • Utilizar MRUnit para probar aplicaciones MapReduce.
  • Introducirse en Hive para realizar consultas SQL sobre grandes datasets.
  • Trabajar con Spark y RDDs para procesamiento distribuido eficiente en memoria.


Contenido

  1. Introducción a Hadoop y Big Data
    1. Conceptos clave de Big Data y la importancia de Hadoop
    2. Historia y evolución de Hadoop en el contexto de la tecnología de datos
    3. Fundamentos de HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator) y MapReduce
  2. Hadoop Distributed File System (HDFS)
    1. Principios de funcionamiento y arquitectura de HDFS
    2. Procesos de lectura y escritura de datos en HDFS
    3. Comandos esenciales para interactuar con el sistema de archivos distribuido
    4. Herramientas adicionales para la gestión de archivos en HDFS
    5. Uso de la API de HDFS con Java para desarrollos personalizados
  3. MapReduce
    1. Configuración del entorno para ejecutar aplicaciones MapReduce
    2. Desarrollo de funciones Map y Reduce para procesamiento de datos
    3. Uso de Combiners para optimizar el procesamiento
  4. MRUnit
    1. Instalación de MRUnit para pruebas unitarias en aplicaciones MapReduce
    2. Casos de uso
  5. HIVE
    1. Introducción a Apache Hive como herramienta de consultas SQL sobre Hadoop
    2. Uso de la consola Hive para realizar operaciones
    3. Sintaxis y funciones de HiveQL (Hive Query Language) para análisis de datos
  6. Spark
    1. Introducción a Apache Spark como motor de procesamiento en memoria
    2. Concepto de Resilient Distributed Datasets (RDD) y su papel en Spark
    3. Uso de Spark Shell para el desarrollo interactivo
    4. Aplicación de transformaciones y acciones en RDDs para manipulación de datos
    5. Uso de la API de Spark con Java para procesamiento distribuido


Documentación Recomendada

Mastering Hadoop 3
By Chanchal Singh , Manish Kumar
February 2019 | 544 pages
ISBN 9781788620444

https://www.packtpub.com/product/mastering-hadoop-3/9781788620444