[ATD-130] Databricks
Este curso ofrece está orientado al procesamiento y análisis de datos en arquitecturas Lakehouse. Aborda el uso del workspace y notebooks, fundamentos de Apache Spark, ingesta y transformación de datos con PySpark, manejo de Delta Lake y consultas con SQL. Incluye creación de pipelines y buenas prácticas para proyectos de ingeniería de datos.
Duración: 15 horas
Perfil: Avanzado
Dirigido a
Esta acción formativa va dirigida a analistas de datos, ingenieros de datos o desarrolladores que quieran iniciarse en Big Data.
Requisitos previos
Los alumnos necesitaran tener conocimientos de programación y estar familiarizados con el uso y manipulación de datos.
Objetivos
Conocer Databricks y la arquitectura Lakehouse
Manipular y transformar datos con Spark y Delta Lake
Analisis de datos y uso de notebooks
Contenido
Introducción a Databricks y Lakehouse
Qué es Databricks
Concepto Lakehouse
Casos de uso reales
Workspace y Notebooks
Workspace y organización
Tipos de notebooks
Lenguajes soportados
Markdown y documentación
Fundamentos de Apache Spark
Qué es Spark
DataFrames
Lazy evaluation
Transformations vs Actions
Ingesta de datos
Formatos CSV, JSON y Parquet
Uso de DBFS
Inferencia de esquemas
Exploración inicial de datos
Transformación de Datos con PySpark
Funciones principales
Manipulación y limpieza de datos
Joins
Agregaciones
Delta Lake
¿Qué es Delta Lake
Parquet vs Delta
Lectura y escritura
Time Travel
Merge y Acid
SQL en Databricks
SparkSQL
Vistas temporales
SQL sobre Delta
Pipeline
Arquitectura Bronze Silver Gold
Pipeline manual con notebooks
Limitaciones productivas
Documentación Recomendada
Data Engineering with Databricks Cookbook
Pulkit Chadha
May 2024 | 438 pages