[ATD-050] PySpark
Este curso ofrece una introducción práctica al uso de Spark con Python, desde la instalación y configuración hasta el manejo de Resilient Distributed Datasets (RDDs) y DataFrames. Incluye técnicas avanzadas para depuración, análisis de datos y exploración de estadísticas, como correlaciones e histogramas, además de SQL sobre tablas temporales.
Duración: 25 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa está destinada a profesionales de datos, programadores y analistas que buscan aprender a manejar grandes volúmenes de datos de manera eficiente usando Spark con Python.
Requisitos previos
Conocimientos básicos de programación en Python, nociones de SQL y comprensión general del procesamiento de datos.
Objetivos
- Comprender los fundamentos de Spark y su arquitectura.
- Aprender a crear y manipular Resilient Distributed Datasets (RDDs) y DataFrames.
- Realizar transformaciones y acciones avanzadas para análisis de datos.
- Aplicar SQL en Spark y explorar datos mediante estadísticas y visualizaciones como correlaciones e histogramas.
Contenido
Introducción a PySpark
- Fundamentos de Python aplicados a Spark
- Conceptos básicos y arquitectura de Apache Spark
Instalación y Configuración de Spark
- Configuración del entorno local y en clústeres
- Instalación de Spark y herramientas necesarias
Resilient Distributed Datasets (RDDs)
- Creación y estructura de RDDs
- Importación y lectura de datos desde archivos
- Transformaciones y acciones en RDDs
- Buenas prácticas y optimización de RDDs
DataFrames en PySpark
- Creación de DataFrames y definición de esquemas
- Tablas temporales y operaciones SQL
- Transformaciones y acciones aplicadas a DataFrames
Operaciones Avanzadas en PySpark
- Limpieza, transformación y preparación de datos
- Depuración de datos en el contexto de Big Data
Análisis y Exploración de Datos
- Generación de estadísticas descriptivas
- Análisis de correlaciones y relaciones entre variables
- Creación de histogramas y otras visualizaciones para explorar patrones en los datos
Documentación Recomendada
PySpark Cookbook
BDenny Lee, Tomasz Drabas
June 2018 | 330 pages
https://www.packtpub.com/product/pyspark-cookbook/9781788835367
![]()