[BDN-010] Fundamentos de Big Data
Este curso ofrece una introducción integral al Big Data, cubriendo su historia, ecosistema y tecnologías clave como Hadoop, Spark y bases de datos NoSQL. Incluye conceptos de infraestructura, seguridad, programación en Python, R y Scala, análisis de datos, Machine Learning y visualización, aplicados a casos reales de uso.
Duración: 24 horas
Perfil: Avanzado
Dirigido a
Este curso está dirigido a profesionales interesados en el análisis de grandes volúmenes de datos, como ingenieros de datos, analistas de datos, científicos de datos, desarrolladores de software y cualquier persona que desee adquirir habilidades en tecnologías Big Data y su aplicación en el análisis y procesamiento de datos masivos.
Requisitos previos
Los alumnos necesitarán tener conocimientos básicos de programación, preferiblemente en Python, fundamentos de matemáticas y estadísticas, bases de datos relacionales y análisis de datos.
Objetivos
Comprender los conceptos fundamentales de Big Data.
Familiarizarse con las principales tecnologías y herramientas del ecosistema Big Data, como Hadoop, Spark y bases de datos NoSQL.
Desarrollar habilidades en programación para el procesamiento y análisis de grandes volúmenes de datos utilizando Python, R y Scala.
Aplicar técnicas de Machine Learning y Deep Learning para el análisis y predicción de datos masivos.
Contenido
Introducción al Big Data
Definición y conceptos clave en Big Data.
Historia y evolución del Big Data.
Explosión de la información y sus desafíos.
Principales soluciones de Big Data.
Las "4 V" de Big Data: Volumen, Variedad, Velocidad y Veracidad.
Visión general del ecosistema de Big Data y sus componentes.
Estructura tecnológica en Big Data
Infraestructura y almacenamiento en sistemas de Big Data.
Arquitectura distribuida y sistemas escalables.
Principios de seguridad y privacidad en entornos de Big Data.
Hadoop y su Ecosistema
Introducción a Hadoop y su rol en el Big Data.
Componentes principales: MapReduce y HDFS (Hadoop Distributed File System).
Procesos de entrada y salida de datos en HDFS.
Proyectos de código abierto relacionados con Hadoop:
Zookeeper: Coordinación y gestión de recursos.
Sqoop: Integración de datos relacionales y Hadoop.
Flume: Ingesta de datos en tiempo real.
Kafka: Procesamiento de flujos de datos.
HUE: Interfaz gráfica para trabajar con el ecosistema Hadoop.
Bases de Datos NoSQL
Introducción a las bases de datos NoSQL y sus tipos.
Principales tecnologías:
HIVE: Herramienta de consulta y análisis.
HBASE: Base de datos orientada a columnas.
Cassandra: Base de datos distribuida y tolerante a fallos.
MongoDB: Base de datos orientada a documentos.
ElasticSearch: Motor de búsqueda y análisis de datos.
Spark y sus Módulos
Introducción a Apache Spark y su arquitectura.
Módulos de Spark:
SparkSQL: Análisis de datos estructurados.
SparkML: Algoritmos de machine learning.
Spark Streaming: Procesamiento de datos en tiempo real.
Programación en Big Data
Lenguajes de programación comunes en Big Data: Python, R y Scala.
Análisis y Machine Learning en Big Data
Principios básicos del análisis de datos.
Introducción al machine learning: algoritmos y aplicaciones en Big Data.
Deep Learning y Redes Neuronales
Fundamentos de deep learning y redes neuronales.
Visualización de Datos en Big Data
Técnicas y herramientas de visualización de datos.
Interpretación y comunicación efectiva de resultados en Big Data.
Casos de uso y principios de programación
Documentación Recomendada
Big Data: Principles and best practices of scalable realtime data systems (1st Edition)
Nathan Marz y James Warren
Abril 2015 | 328 páginas