[ATD-050] PySpark
Este curso ofrece una introducción práctica al uso de Spark con Python, desde la instalación y configuración hasta el manejo de Resilient Distributed Datasets (RDDs) y DataFrames. Incluye técnicas avanzadas para depuración, análisis de datos y exploración de estadísticas, como correlaciones e histogramas, además de SQL sobre tablas temporales.
Duración: 25 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa está destinada a profesionales de datos, programadores y analistas que buscan aprender a manejar grandes volúmenes de datos de manera eficiente usando Spark con Python.
Requisitos previos
Conocimientos básicos de programación en Python, nociones de SQL y comprensión general del procesamiento de datos.
Objetivos
Comprender los fundamentos de Spark y su arquitectura.
Aprender a crear y manipular Resilient Distributed Datasets (RDDs) y DataFrames.
Realizar transformaciones y acciones avanzadas para análisis de datos.
Aplicar SQL en Spark y explorar datos mediante estadísticas y visualizaciones como correlaciones e histogramas.
Contenido
Introducción a PySpark
Fundamentos de Python aplicados a Spark
Conceptos básicos y arquitectura de Apache Spark
Instalación y Configuración de Spark
Configuración del entorno local y en clústeres
Instalación de Spark y herramientas necesarias
Resilient Distributed Datasets (RDDs)
Creación y estructura de RDDs
Importación y lectura de datos desde archivos
Transformaciones y acciones en RDDs
Buenas prácticas y optimización de RDDs
DataFrames en PySpark
Creación de DataFrames y definición de esquemas
Tablas temporales y operaciones SQL
Transformaciones y acciones aplicadas a DataFrames
Operaciones Avanzadas en PySpark
Limpieza, transformación y preparación de datos
Depuración de datos en el contexto de Big Data
Análisis y Exploración de Datos
Generación de estadísticas descriptivas
Análisis de correlaciones y relaciones entre variables
Creación de histogramas y otras visualizaciones para explorar patrones en los datos
Documentación Recomendada
PySpark Cookbook
BDenny Lee, Tomasz Drabas
June 2018 | 330 pages
https://www.packtpub.com/product/pyspark-cookbook/9781788835367