/
[ATD-040] PySpark

[ATD-040] PySpark

Este curso ofrece una introducción práctica al uso de Spark con Python, desde la instalación y configuración hasta el manejo de Resilient Distributed Datasets (RDDs) y DataFrames. Incluye técnicas avanzadas para depuración, análisis de datos y exploración de estadísticas, como correlaciones e histogramas, además de SQL sobre tablas temporales.

Duración:                     25 horas

Perfil:                            Avanzado

Dirigido a

Esta acción formativa está destinada a profesionales de datos, programadores y analistas que buscan aprender a manejar grandes volúmenes de datos de manera eficiente usando Spark con Python.

Requisitos previos 

Conocimientos básicos de programación en Python, nociones de SQL y comprensión general del procesamiento de datos.

Objetivos

  • Comprender los fundamentos de Spark y su arquitectura.
  • Aprender a crear y manipular Resilient Distributed Datasets (RDDs) y DataFrames.
  • Realizar transformaciones y acciones avanzadas para análisis de datos.
  • Aplicar SQL en Spark y explorar datos mediante estadísticas y visualizaciones como correlaciones e histogramas.


Contenido

  1. Introducción a PySpark

    1. Fundamentos de Python aplicados a Spark
    2. Conceptos básicos y arquitectura de Apache Spark
  2. Instalación y Configuración de Spark

    1. Configuración del entorno local y en clústeres
    2. Instalación de Spark y herramientas necesarias
  3. Resilient Distributed Datasets (RDDs)

    1. Creación y estructura de RDDs
    2. Importación y lectura de datos desde archivos
    3. Transformaciones y acciones en RDDs
    4. Buenas prácticas y optimización de RDDs
  4. DataFrames en PySpark

    1. Creación de DataFrames y definición de esquemas
    2. Tablas temporales y operaciones SQL
    3. Transformaciones y acciones aplicadas a DataFrames
  5. Operaciones Avanzadas en PySpark

    1. Limpieza, transformación y preparación de datos
    2. Depuración de datos en el contexto de Big Data
  6. Análisis y Exploración de Datos

    1. Generación de estadísticas descriptivas
    2. Análisis de correlaciones y relaciones entre variables
    3. Creación de histogramas y otras visualizaciones para explorar patrones en los datos


Documentación Recomendada

PySpark Cookbook
BDenny Lee, Tomasz Drabas
June 2018 | 330 pages

https://www.packtpub.com/product/pyspark-cookbook/9781788835367

Related content