/
[BDN-030] Spark

[BDN-030] Spark

Curso introductorio de Apache Spark, abordando desde su arquitectura y ecosistema hasta la manipulación de datos mediante RDDs, transformaciones y acciones. Cubre Spark Streaming, Spark SQL, y conexiones con Hadoop y Cassandra. Incluye técnicas de optimización como particionado y uso de variables acumulador y broadcast para mejorar rendimiento en procesamiento distribuido.

Duración:                    24 horas

Perfil:                           Avanzado

Dirigido a

Esta acción formativa va dirigida a programadores, analistas, ingenieros de software y científicos de datos interesados en el procesamiento de grandes volúmenes de información en entornos distribuidos utilizando Apache Spark.

Requisitos previos 

Es recomendable tener conocimientos básicos de programación, especialmente en Python o Scala, además de nociones de bases de datos y sistemas distribuidos.

Objetivos

  • Comprender la arquitectura y el ecosistema de Apache Spark.
  • Aprender a manejar RDDs y DataFrames para procesar y transformar datos.
  • Explorar Spark Streaming para procesar datos en tiempo real.
  • Conectar Spark con sistemas como Hadoop y Cassandra.
  • Aplicar técnicas de optimización y particionado para mejorar el rendimiento en el procesamiento de datos distribuidos.


Contenido

  1. Introducción a Apache Spark
    1. Fundamentos de Spark y su arquitectura distribuida
    2. Componentes y herramientas del ecosistema Spark
  2. Resilient Distributed Datasets (RDDs)
    1. Conceptos de RDDs y su persistencia
    2. Introducción a operaciones con RDDs:
      1. Transformaciones (map, filter, etc.)
      2. Acciones (collect, reduce, etc.)
  3. Primeros pasos en Spark
    1. Uso de Spark Shell para ejecución interactiva
    2. Programación con Spark en un entorno IDE
  4. Manipulación de datos con RDDs y Pair RDDs
    1. Uso de RDDs con pares clave-valor
    2. Operaciones de agregación, agrupamiento, y ordenación
    3. Joins y operaciones de conjuntos con Pair RDDs
  5. Spark Streaming
    1. Arquitectura de Spark Streaming y procesamiento en tiempo real
    2. Transformaciones Stateless y Stateful
    3. Transformaciones Window
    4. Control de paralelismo y operaciones de salida en Spark Streaming
  6. Spark SQL
    1. Fundamentos de Spark SQL y manipulación de DataFrames
    2. Operaciones de RDD en DataFrames
  7. Integración con Hadoop y Hive
    1. Lectura y escritura de datos en HDFS
    2. Conexión y consultas con Hive desde Spark
  8. Integración con Cassandra
    1. Operaciones sobre datos de Cassandra desde Spark
    2. Uso del conector Cassandra-Spark
    3. Funciones avanzadas: Count, Group By, Joining
    4. Spark SQL con Cassandra
  9. Optimización en Spark
    1. Uso de variables acumulador y broadcast para optimización
    2. Persistencia y particionado de RDDs
    3. Control de particionado y reducción de Data Shuffling para optimización del rendimiento


Documentación Recomendada

Databricks Certified Associate Developer for Apache Spark Using Python
Saba Shah
June 2024 | 274 pages

https://www.packtpub.com/en-us/product/databricks-certified-associate-developer-for-apache-spark-using-python-9781804616208

Related pages