[BDN-010] Fundamentos de Big Data
- Pronoide Wiki Web
Este curso ofrece una introducción integral al Big Data, cubriendo su historia, ecosistema y tecnologías clave como Hadoop, Spark y bases de datos NoSQL. Incluye conceptos de infraestructura, seguridad, programación en Python, R y Scala, análisis de datos, Machine Learning y visualización, aplicados a casos reales de uso.
Duración: 24 horas
Perfil: Avanzado
Dirigido a
Este curso está dirigido a profesionales interesados en el análisis de grandes volúmenes de datos, como ingenieros de datos, analistas de datos, científicos de datos, desarrolladores de software y cualquier persona que desee adquirir habilidades en tecnologías Big Data y su aplicación en el análisis y procesamiento de datos masivos.
Requisitos previos
Los alumnos necesitarán tener conocimientos básicos de programación, preferiblemente en Python, fundamentos de matemáticas y estadísticas, bases de datos relacionales y análisis de datos.
Objetivos
- Comprender los conceptos fundamentales de Big Data.
- Familiarizarse con las principales tecnologías y herramientas del ecosistema Big Data, como Hadoop, Spark y bases de datos NoSQL.
- Desarrollar habilidades en programación para el procesamiento y análisis de grandes volúmenes de datos utilizando Python, R y Scala.
- Aplicar técnicas de Machine Learning y Deep Learning para el análisis y predicción de datos masivos.
Contenido
- Introducción al Big Data
- Definición y conceptos clave en Big Data.
- Historia y evolución del Big Data.
- Explosión de la información y sus desafíos.
- Principales soluciones de Big Data.
- Las "4 V" de Big Data: Volumen, Variedad, Velocidad y Veracidad.
- Visión general del ecosistema de Big Data y sus componentes.
- Estructura tecnológica en Big Data
- Infraestructura y almacenamiento en sistemas de Big Data.
- Arquitectura distribuida y sistemas escalables.
- Principios de seguridad y privacidad en entornos de Big Data.
- Hadoop y su Ecosistema
- Introducción a Hadoop y su rol en el Big Data.
- Componentes principales: MapReduce y HDFS (Hadoop Distributed File System).
- Procesos de entrada y salida de datos en HDFS.
- Proyectos de código abierto relacionados con Hadoop:
- Zookeeper: Coordinación y gestión de recursos.
- Sqoop: Integración de datos relacionales y Hadoop.
- Flume: Ingesta de datos en tiempo real.
- Kafka: Procesamiento de flujos de datos.
- HUE: Interfaz gráfica para trabajar con el ecosistema Hadoop.
- Bases de Datos NoSQL
- Introducción a las bases de datos NoSQL y sus tipos.
- Principales tecnologías:
- HIVE: Herramienta de consulta y análisis.
- HBASE: Base de datos orientada a columnas.
- Cassandra: Base de datos distribuida y tolerante a fallos.
- MongoDB: Base de datos orientada a documentos.
- ElasticSearch: Motor de búsqueda y análisis de datos.
- Spark y sus Módulos
- Introducción a Apache Spark y su arquitectura.
- Módulos de Spark:
- SparkSQL: Análisis de datos estructurados.
- SparkML: Algoritmos de machine learning.
- Spark Streaming: Procesamiento de datos en tiempo real.
- Programación en Big Data
- Lenguajes de programación comunes en Big Data: Python, R y Scala.
- Análisis y Machine Learning en Big Data
- Principios básicos del análisis de datos.
- Introducción al machine learning: algoritmos y aplicaciones en Big Data.
- Deep Learning y Redes Neuronales
- Fundamentos de deep learning y redes neuronales.
- Visualización de Datos en Big Data
- Técnicas y herramientas de visualización de datos.
- Interpretación y comunicación efectiva de resultados en Big Data.
- Casos de uso y principios de programación
Documentación Recomendada
Big Data: Principles and best practices of scalable realtime data systems (1st Edition)
Nathan Marz y James Warren
Abril 2015 | 328 páginas