[BDN-030] Spark
Duración: 24 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa va dirigida a Programadores, Analistas y Administradores de sistemas Big Data.
Requisitos previos
Se recomienda tener experiencia con los lenguajes Java o Python, o al menos con lenguajes similares como JavaScript, C# o C++ y nociones claras de programación orientada a objetos.
Objetivos
Introducir al alumno en los conceptos y características principales que componen una solución basada en Spark.
Contenido
- Introducción
Arquitectura SPARK
Ecosistema SPARK
RDDs
Persistencia
- Introducción a las operaciones con RDDs
Transformaciones
Acciones
- Primeros pasos en Spark
Usando Spark Shell
Programando con IDE
- Parejas de Clave
- Pair RDDs
- Aggregation
- Grouping y Sorting
- Joins
- Operaciones Set
- Spark Streaming
- Arquitectura
- Transformaciones Stateless
- Transformaciones Stateful
- Transformaciones Window
- Operaciones de salida
- Controlando paralelismo
- Spark SQL
- Basics
- DataFrames
- Operaciones RDD sobre DataFrames
- Conectando con Hadoop
- Lectura/escritura contra HDFS
- Conectando con HIVE
- Conectando con Cassandra
- Operar con datos de Cassandra
- Usando el connector
- Count, Group By, Joining
- Spark SQL con Cassandra
- Optimización:
- Variables Acumulador
- Variables Broadcast
- Persistencia de RDDs
- Conocer el particionado
- Controlar el particionado
- Data Shuffling
Documentación Recomendada
Learning Spark - Lightning-Fast Big Data Analysis
Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia
Enero 2015 | 276 páginas
ISBN: 978-1-4493-5862-4