[BDN-030] Spark
Curso introductorio de Apache Spark, abordando desde su arquitectura y ecosistema hasta la manipulación de datos mediante RDDs, transformaciones y acciones. Cubre Spark Streaming, Spark SQL, y conexiones con Hadoop y Cassandra. Incluye técnicas de optimización como particionado y uso de variables acumulador y broadcast para mejorar rendimiento en procesamiento distribuido.
Duración: 24 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa va dirigida a programadores, analistas, ingenieros de software y científicos de datos interesados en el procesamiento de grandes volúmenes de información en entornos distribuidos utilizando Apache Spark.
Requisitos previos
Es recomendable tener conocimientos básicos de programación, especialmente en Python o Scala, además de nociones de bases de datos y sistemas distribuidos.
Objetivos
Comprender la arquitectura y el ecosistema de Apache Spark.
Aprender a manejar RDDs y DataFrames para procesar y transformar datos.
Explorar Spark Streaming para procesar datos en tiempo real.
Conectar Spark con sistemas como Hadoop y Cassandra.
Aplicar técnicas de optimización y particionado para mejorar el rendimiento en el procesamiento de datos distribuidos.
Contenido
Introducción a Apache Spark
Fundamentos de Spark y su arquitectura distribuida
Componentes y herramientas del ecosistema Spark
Resilient Distributed Datasets (RDDs)
Conceptos de RDDs y su persistencia
Introducción a operaciones con RDDs:
Transformaciones (map, filter, etc.)
Acciones (collect, reduce, etc.)
Primeros pasos en Spark
Uso de Spark Shell para ejecución interactiva
Programación con Spark en un entorno IDE
Manipulación de datos con RDDs y Pair RDDs
Uso de RDDs con pares clave-valor
Operaciones de agregación, agrupamiento, y ordenación
Joins y operaciones de conjuntos con Pair RDDs
Spark Streaming
Arquitectura de Spark Streaming y procesamiento en tiempo real
Transformaciones Stateless y Stateful
Transformaciones Window
Control de paralelismo y operaciones de salida en Spark Streaming
Spark SQL
Fundamentos de Spark SQL y manipulación de DataFrames
Operaciones de RDD en DataFrames
Integración con Hadoop y Hive
Lectura y escritura de datos en HDFS
Conexión y consultas con Hive desde Spark
Integración con Cassandra
Operaciones sobre datos de Cassandra desde Spark
Uso del conector Cassandra-Spark
Funciones avanzadas: Count, Group By, Joining
Spark SQL con Cassandra
Optimización en Spark
Uso de variables acumulador y broadcast para optimización
Persistencia y particionado de RDDs
Control de particionado y reducción de Data Shuffling para optimización del rendimiento
Documentación Recomendada
Databricks Certified Associate Developer for Apache Spark Using Python
Saba Shah
June 2024 | 274 pages