Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Este curso cubre desde la introducción a Big Data y la arquitectura de Hadoop hasta el uso práctico de herramientas clave como HDFS, YARN y MapReduce. Incluye temas como comandos HDFS, desarrollo en Java, procesamiento con MapReduce, testing con MRUnit y la integración de Spark y Hive para análisis avanzado de datos distribuidos.

Duración:                     16 horas

Perfil:                            Avanzado

Dirigido a

Esta acción formativa va dirigida a Programadores, Analistas y Administradores de sistemasprogramadores, analistas de datos e ingenieros de software interesados en aprender a gestionar y procesar grandes volúmenes de datos utilizando el ecosistema Hadoop. También es adecuado para aquellos que buscan profundizar en herramientas de Big Data.

Requisitos previos 

Se recomienda tener experiencia con los lenguajes Es recomendable tener conocimientos básicos de programación (preferiblemente en Java o Python, o al menos con lenguajes similares como JavaScript, C# o C++ y nociones claras de programación orientada a objetos.

Objetivos

En este curso se trata de ver que aporta Hadoop al área de big data a través del estudio de los diferentes componentes que forman el core de Hadoop: YARN, HDFS y MapReduce.

), conceptos de bases de datos y una comprensión general del sistema operativo Linux, ya que se utilizarán comandos de sistema y programación de scripts.

Objetivos

  • Comprender la arquitectura de Hadoop y el rol de Big Data.
  • Explorar y gestionar el Hadoop Distributed File System (HDFS).
  • Desarrollar y optimizar procesos de MapReduce para análisis de datos masivos.
  • Utilizar MRUnit para probar aplicaciones MapReduce.
  • Introducirse en Hive para realizar consultas SQL sobre grandes datasets.
  • Trabajar con Spark y RDDs para procesamiento distribuido eficiente en memoria.


Contenido

  1. Introducción a Hadoop y Big Data
    1. Conceptos clave de Big Data y la importancia de Hadoop
    2. Historia Introducción al HDFS, YARN y evolución de Hadoop en el contexto de la tecnología de datos
    3. Fundamentos de HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator) y MapReduce
  2. Hadoop Distributed File System (HDFS)
    1. Conceptos Principios de funcionamiento y arquitectura de HDFS
    2. Lectura Procesos de lectura y escritura de datos en HDFS
    3. Escritura en HDFS
    4. Comandos del HDFS
    5. Herramientas de HDFS
    6. API Java de HDFS
  3. MapReduce
    1. Preparar el entorno
    2. Map
    3. Reduce
    4. Combiner
    5. Ejemplo avanzado
  4. MRUnit
    1. InstalaciónComandos esenciales para interactuar con el sistema de archivos distribuido
    2. Herramientas adicionales para la gestión de archivos en HDFS
    3. Uso de la API de HDFS con Java para desarrollos personalizados
  5. MapReduce
    1. Configuración del entorno para ejecutar aplicaciones MapReduce
    2. Desarrollo de funciones Map y Reduce para procesamiento de datos
    3. Uso de Combiners para optimizar el procesamiento
  6. MRUnit
    1. Instalación de MRUnit para pruebas unitarias en aplicaciones MapReduce
    2. Casos de uso
  7. HIVE
    1. Introducción
    2. Consola Hive

    3. HiveQLa Apache Hive como herramienta de consultas SQL sobre Hadoop
    4. Uso de la consola Hive para realizar operaciones
    5. Sintaxis y funciones de HiveQL (Hive Query Language) para análisis de datos
  8. Spark
    1. Introducción a Apache Spark como motor de procesamiento en memoria
    2. Concepto de Resilient Distributed Datasets (RDD) y su papel en Spark
    3. Uso de Spark Shell
    4. Transformaciones sobre RDDs
    5. Acciones sobre RDDs
    6. API Java de Sparkpara el desarrollo interactivo
    7. Aplicación de transformaciones y acciones en RDDs para manipulación de datos
    8. Uso de la API de Spark con Java para procesamiento distribuido


Documentación Recomendada

Mastering Hadoop 3
By Chanchal Singh , Manish Kumar
February 2019 | 544 pages
ISBN 9781788620444

https://www.packtpub.com/product/mastering-hadoop-3/9781788620444