[ATD-050] PySpark

[ATD-050] PySpark

Este curso ofrece una introducción práctica al uso de Spark con Python, desde la instalación y configuración hasta el manejo de Resilient Distributed Datasets (RDDs) y DataFrames. Incluye técnicas avanzadas para depuración, análisis de datos y exploración de estadísticas, como correlaciones e histogramas, además de SQL sobre tablas temporales.

Duración:                     25 horas

Perfil:                            Avanzado

Dirigido a

Esta acción formativa está destinada a profesionales de datos, programadores y analistas que buscan aprender a manejar grandes volúmenes de datos de manera eficiente usando Spark con Python.

Requisitos previos 

Conocimientos básicos de programación en Python, nociones de SQL y comprensión general del procesamiento de datos.

Objetivos

  • Comprender los fundamentos de Spark y su arquitectura.

  • Aprender a crear y manipular Resilient Distributed Datasets (RDDs) y DataFrames.

  • Realizar transformaciones y acciones avanzadas para análisis de datos.

  • Aplicar SQL en Spark y explorar datos mediante estadísticas y visualizaciones como correlaciones e histogramas.

 

 

Contenido

  1. Introducción a PySpark

    1. Fundamentos de Python aplicados a Spark

    2. Conceptos básicos y arquitectura de Apache Spark

  2. Instalación y Configuración de Spark

    1. Configuración del entorno local y en clústeres

    2. Instalación de Spark y herramientas necesarias

  3. Resilient Distributed Datasets (RDDs)

    1. Creación y estructura de RDDs

    2. Importación y lectura de datos desde archivos

    3. Transformaciones y acciones en RDDs

    4. Buenas prácticas y optimización de RDDs

  4. DataFrames en PySpark

    1. Creación de DataFrames y definición de esquemas

    2. Tablas temporales y operaciones SQL

    3. Transformaciones y acciones aplicadas a DataFrames

  5. Operaciones Avanzadas en PySpark

    1. Limpieza, transformación y preparación de datos

    2. Depuración de datos en el contexto de Big Data

  6. Análisis y Exploración de Datos

    1. Generación de estadísticas descriptivas

    2. Análisis de correlaciones y relaciones entre variables

    3. Creación de histogramas y otras visualizaciones para explorar patrones en los datos

 

 

Documentación Recomendada

PySpark Cookbook
BDenny Lee, Tomasz Drabas
June 2018 | 330 pages

https://www.packtpub.com/product/pyspark-cookbook/9781788835367