[ATD-130] Databricks

[ATD-130] Databricks

 

Este curso ofrece está orientado al procesamiento y análisis de datos en arquitecturas Lakehouse. Aborda el uso del workspace y notebooks, fundamentos de Apache Spark, ingesta y transformación de datos con PySpark, manejo de Delta Lake y consultas con SQL. Incluye creación de pipelines y buenas prácticas para proyectos de ingeniería de datos.

Duración:                     15 horas

Perfil:                            Avanzado

Dirigido a

Esta acción formativa va dirigida a analistas de datos, ingenieros de datos o desarrolladores que quieran iniciarse en Big Data.

Requisitos previos

Los alumnos necesitaran tener conocimientos de programación y estar familiarizados con el uso y manipulación de datos.

Objetivos

  • Conocer Databricks y la arquitectura Lakehouse

  • Manipular y transformar datos con Spark y Delta Lake

  • Analisis de datos y uso de notebooks

 

image-20260310-153235.png

 

Contenido

  1. Introducción a Databricks y Lakehouse

    1. Qué es Databricks

    2. Concepto Lakehouse

    3. Casos de uso reales

  2. Workspace y Notebooks

    1. Workspace y organización

    2. Tipos de notebooks

    3. Lenguajes soportados

    4. Markdown y documentación

  3. Fundamentos de Apache Spark

    1. Qué es Spark

    2. DataFrames

    3. Lazy evaluation

    4. Transformations vs Actions

  4. Ingesta de datos

    1. Formatos CSV, JSON y Parquet

    2. Uso de DBFS

    3. Inferencia de esquemas

    4. Exploración inicial de datos

  5. Transformación de Datos con PySpark

    1. Funciones principales

    2. Manipulación y limpieza de datos

    3. Joins

    4. Agregaciones

  6. Delta Lake

    1. ¿Qué es Delta Lake

    2. Parquet vs Delta

    3. Lectura y escritura

    4. Time Travel

    5. Merge y Acid

  7. SQL en Databricks

    1. SparkSQL

    2. Vistas temporales

    3. SQL sobre Delta

  8. Pipeline

    1. Arquitectura Bronze Silver Gold

    2. Pipeline manual con notebooks

    3. Limitaciones productivas



 

Documentación Recomendada

Data Engineering with Databricks Cookbook
Pulkit Chadha
May 2024 | 438 pages

 

image-20260310-153356.png