Este curso ofrece una introducción práctica al uso de Spark con Python, desde la instalación y configuración hasta el manejo de Resilient Distributed Datasets (RDDs) y DataFrames. Incluye técnicas avanzadas para depuración, análisis de datos y exploración de estadísticas, como correlaciones e histogramas, además de SQL sobre tablas temporales.
Duración: 25 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa está destinada a profesionales de datos, programadores y analistas que buscan aprender a manejar grandes volúmenes de datos de manera eficiente usando Spark con Python.
Requisitos previos
Conocimientos básicos de programación en Python, nociones de SQL y comprensión general del procesamiento de datos.
Objetivos
- Comprender los fundamentos de Spark y su arquitectura.
- Aprender a crear y manipular Resilient Distributed Datasets (RDDs) y DataFrames.
- Realizar transformaciones y acciones avanzadas para análisis de datos.
- Aplicar SQL en Spark y explorar datos mediante estadísticas y visualizaciones como correlaciones e histogramas.