[BDN-030] Spark
- Pronoide Wiki Web
Curso introductorio de Apache Spark, abordando desde su arquitectura y ecosistema hasta la manipulación de datos mediante RDDs, transformaciones y acciones. Cubre Spark Streaming, Spark SQL, y conexiones con Hadoop y Cassandra. Incluye técnicas de optimización como particionado y uso de variables acumulador y broadcast para mejorar rendimiento en procesamiento distribuido.
Duración: 24 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa va dirigida a programadores, analistas, ingenieros de software y científicos de datos interesados en el procesamiento de grandes volúmenes de información en entornos distribuidos utilizando Apache Spark.
Requisitos previos
Es recomendable tener conocimientos básicos de programación, especialmente en Python o Scala, además de nociones de bases de datos y sistemas distribuidos.
Objetivos
- Comprender la arquitectura y el ecosistema de Apache Spark.
- Aprender a manejar RDDs y DataFrames para procesar y transformar datos.
- Explorar Spark Streaming para procesar datos en tiempo real.
- Conectar Spark con sistemas como Hadoop y Cassandra.
- Aplicar técnicas de optimización y particionado para mejorar el rendimiento en el procesamiento de datos distribuidos.
Contenido
- Introducción a Apache Spark
- Fundamentos de Spark y su arquitectura distribuida
- Componentes y herramientas del ecosistema Spark
- Resilient Distributed Datasets (RDDs)
- Conceptos de RDDs y su persistencia
- Introducción a operaciones con RDDs:
- Transformaciones (map, filter, etc.)
- Acciones (collect, reduce, etc.)
- Primeros pasos en Spark
- Uso de Spark Shell para ejecución interactiva
- Programación con Spark en un entorno IDE
- Manipulación de datos con RDDs y Pair RDDs
- Uso de RDDs con pares clave-valor
- Operaciones de agregación, agrupamiento, y ordenación
- Joins y operaciones de conjuntos con Pair RDDs
- Spark Streaming
- Arquitectura de Spark Streaming y procesamiento en tiempo real
- Transformaciones Stateless y Stateful
- Transformaciones Window
- Control de paralelismo y operaciones de salida en Spark Streaming
- Spark SQL
- Fundamentos de Spark SQL y manipulación de DataFrames
- Operaciones de RDD en DataFrames
- Integración con Hadoop y Hive
- Lectura y escritura de datos en HDFS
- Conexión y consultas con Hive desde Spark
- Integración con Cassandra
- Operaciones sobre datos de Cassandra desde Spark
- Uso del conector Cassandra-Spark
- Funciones avanzadas: Count, Group By, Joining
- Spark SQL con Cassandra
- Optimización en Spark
- Uso de variables acumulador y broadcast para optimización
- Persistencia y particionado de RDDs
- Control de particionado y reducción de Data Shuffling para optimización del rendimiento
Documentación Recomendada
Databricks Certified Associate Developer for Apache Spark Using Python
Saba Shah
June 2024 | 274 pages