[BDN-080] Spark

Duración:                    24 horas

Perfil:                           Avanzado

Dirigido a

Esta acción formativa va dirigida a Programadores, Analistas y Administradores de sistemas Big Data.

Requisitos previos 

Se recomienda tener experiencia con los lenguajes Java o Python, o al menos con lenguajes similares como JavaScript, C# o C++ y nociones claras de programación orientada a objetos.

Objetivos

Introducir al alumno en los conceptos y características principales que componen una solución basada en Spark.


Contenido

  1. Introducción
    1. Arquitectura SPARK

    2. Ecosistema SPARK

    3. RDDs

    4. Persistencia

  2. Introducción a las operaciones con RDDs
    1. Transformaciones

    2. Acciones

  3. Primeros pasos en Spark
    1. Usando Spark Shell

    2. Programando con IDE

  4. Parejas de Clave
    1. Pair RDDs
    2. Aggregation
    3. Grouping y Sorting
    4. Joins
    5. Operaciones Set
  5. Spark Streaming
    1. Arquitectura
    2. Transformaciones Stateless
    3. Transformaciones Stateful
    4. Transformaciones Window
    5. Operaciones de salida
    6. Controlando paralelismo
  6. Spark SQL 
    1. Basics
    2. DataFrames
    3. Operaciones RDD sobre DataFrames
  7. Conectando con Hadoop
    1. Lectura/escritura contra HDFS
    2. Conectando con HIVE
  8. Conectando con Cassandra
    1. Operar con datos de Cassandra
    2. Usando el connector
    3. Count, Group By, Joining
    4. Spark SQL con Cassandra
  9. Optimización: 
    1. Variables Acumulador
    2. Variables Broadcast
    3. Persistencia de RDDs
    4. Conocer el particionado
    5. Controlar el particionado
    6. Data Shuffling


Documentación Recomendada

Learning Spark - Lightning-Fast Big Data Analysis
Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia
Enero 2015 | 276 páginas
ISBN: 978-1-4493-5862-4

http://shop.oreilly.com/product/0636920028512.do