Este curso enseña a instalar y configurar PETL, manejar pipelines ETL, y realizar transformaciones de datos. Cubre lectura/escritura en múltiples formatos (archivos, bases de datos, Excel, JSON), estilos de programación, manipulación de tablas, deduplicación, validación y visualización, usando Python y herramientas como IPython notebook para análisis eficiente.
Duración: 15 horas
Perfil: Avanzado
Dirigido a
Este curso está dirigido a analistas de datos, ingenieros de datos y desarrolladores de software que deseen aprender a realizar procesos de ETL (Extracción, Transformación y Carga) utilizando Python y la biblioteca PETL.
Requisitos previos
Los alumnos necesitarán tener conocimientos consolidados de programación con Python, conocimientos básicos de bases de datos y conceptos de estructuras de datos (listas, diccionarios y matrices).
Objetivos
- Aprender a instalar y utilizar la biblioteca PETL
- Diseñar y construir pipelines ETL para la extracción, transformación y carga de datos.
- Aplicar técnicas de transformación de datos para manipular y limpiar información.
- Manejar datos provenientes de diferentes fuentes
- Optimizar el almacenamiento en caché y cómo mejorar el rendimiento
- Utilizar funciones de utilidad para visualizar y analizar datos de forma efectiva.
Contenido
- Instalación
- Dependencias y extensiones
- Pipelines ETL
- Estilos de programación: funcional y orientada a objetos
- Uso interactivo y petl ejecutable binario
- Integración con IPython notebook
- Convenciones
- Extensiones
- Almacenamiento en caché
- Leer y Escribir tablas de archivos, bases de datos y otras fuentes
- Extraer (leer)
- Cargar (escribir)
- Objetos Python
- Archivos delimitados y texto
- Archivos XML, HTML y JSON
- Bases de datos
- Ficheros Excel
- Matrices (NumPy)
- DataFrames (pandas)
- Clases auxiliares de E / S
- Transformar
- Transformaciones básicas
- Manipulaciones de encabezado
- Conversión de valores
- Seleccionar filas
- Expresiones regulares
- Valores compuestos
- Transformando filas
- Clasificación
- Uniones
- Operaciones
- Deduplicar filas
- Reducir filas (agregación)
- Remodelando de tablas
- Valores por defecto
- Validación
- Intervalos
- Funciones de utilidad
- Utilidades básicas
- Visualización de tablas
- Buscar estructuras de datos
- Analizar valores de cadena / texto
- Contadores
- Funciones de tiempo
- Estadísticas
- Tablas de materialización
- Tablas generadas aleatoriamente
Documentación Recomendada
Data Wrangling with Python
By Dr. Tirthajyoti Sarkar , Shubhadeep Roychowdhury
February 2019 | 452 pages
ISBN 9781789800111
https://www.packtpub.com/product/data-wrangling-with-python/9781789800111
