[ATD-070] ETL con Python (PETL)
Este curso enseña a instalar y configurar PETL, manejar pipelines ETL, y realizar transformaciones de datos. Cubre lectura/escritura en múltiples formatos (archivos, bases de datos, Excel, JSON), estilos de programación, manipulación de tablas, deduplicación, validación y visualización, usando Python y herramientas como IPython notebook para análisis eficiente.
Duración: 15 horas
Perfil: Avanzado
Dirigido a
Este curso está dirigido a analistas de datos, ingenieros de datos y desarrolladores de software que deseen aprender a realizar procesos de ETL (Extracción, Transformación y Carga) utilizando Python y la biblioteca PETL.
Requisitos previos
Los alumnos necesitarán tener conocimientos consolidados de programación con Python, conocimientos básicos de bases de datos y conceptos de estructuras de datos (listas, diccionarios y matrices).
Objetivos
Aprender a instalar y utilizar la biblioteca PETL
Diseñar y construir pipelines ETL para la extracción, transformación y carga de datos.
Aplicar técnicas de transformación de datos para manipular y limpiar información.
Manejar datos provenientes de diferentes fuentes
Optimizar el almacenamiento en caché y cómo mejorar el rendimiento
Utilizar funciones de utilidad para visualizar y analizar datos de forma efectiva.
Contenido
Instalación
Dependencias y extensiones
Pipelines ETL
Estilos de programación: funcional y orientada a objetos
Uso interactivo y petl ejecutable binario
Integración con IPython notebook
Convenciones
Extensiones
Almacenamiento en caché
Leer y Escribir tablas de archivos, bases de datos y otras fuentes
Extraer (leer)
Cargar (escribir)
Objetos Python
Archivos delimitados y texto
Archivos XML, HTML y JSON
Bases de datos
Ficheros Excel
Matrices (NumPy)
DataFrames (pandas)
Clases auxiliares de E / S
Transformar
Transformaciones básicas
Manipulaciones de encabezado
Conversión de valores
Seleccionar filas
Expresiones regulares
Valores compuestos
Transformando filas
Clasificación
Uniones
Operaciones
Deduplicar filas
Reducir filas (agregación)
Remodelando de tablas
Valores por defecto
Validación
Intervalos
Funciones de utilidad
Utilidades básicas
Visualización de tablas
Buscar estructuras de datos
Analizar valores de cadena / texto
Contadores
Funciones de tiempo
Estadísticas
Tablas de materialización
Tablas generadas aleatoriamente
Documentación Recomendada
Data Wrangling with Python
By Dr. Tirthajyoti Sarkar , Shubhadeep Roychowdhury
February 2019 | 452 pages
ISBN 9781789800111
https://www.packtpub.com/product/data-wrangling-with-python/9781789800111