Big Data: procesamiento y análisis
Learn the basics of data processing and analysis in the context of Big Data. Explore various techniques and tools for extracting insights and drawing conclusions. Ideal for students and professionals interested in entering the Big Data field.
El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el procesamiento y análisis de datos en el contexto de Big Data. No prentende ser un curso exhaustivo sobre Machine Learning ni sobre métodos Estadísticos, simplemente se pretenden mostrar las características principales de estas técnicas para que el alumno pueda tener una visión general de las opciones que ofrece el análisis de datos para poder explorar, confirmar indicios y en definitiva, extraer conclusiones.
El curso está dirigido a estudiantes y profesionales que deseen aproximarse al procesamiento y análisis de datos en Big Data. Aunque no es un requisito indispensable tener experiencia en análisis de datos o en entornos Big Data, el curso puede resultar especialmente interesante a estudiantes con ciertos conocimientos de análisis de datos que deseen introducirse en el entorno Big Data, por otro lado, también resultará interesante a aquellos estudiantes con cierta experiencia en entornos Big Data que deseen adquirir una mayor visión analítica.
En este sentido el curso pretende ofrecer recursos realistas en el contexto Big Data y por este motivo se trabajará des de una máquina virtual con la aplicación Jupyter como enlace para desarrollar los modelos y técnicas con PySpark.
El curso está dividido en 4 módulos más o menos independientes aunque se recomienda realizarlos de forma secuencial.
En el Módulo 1 se presentan los diferentes problemas y técnicas más habitules para analizar datos desde una perspectiva general. También se introduce el caso de estudio y las herramientas de trabajo que se emplearán. El resto de módulo está dedicado a la tarea de Exploración y Pre-Proceso de los datos, incluyendo consultas, tareas de gestión, resúmenes numéricos y gráficos. Los siguientes módulos se focalizan en las técnicas de análisis.
El Módulo 2 se centra en técnicas de modelización básicas, en particular regresión y regresión logística. Además de repasar las etapas de calibración del modelo, también se incluyen las etapas de validación y simplificación.
El módulo 3 está plenamente dedicado a la técnica de Árboles de Regresión y Clasificación. También se incluyen los bosques aleatorios.
El módulo final contiene la técnica de Redes Neuronales para clasificación y también una introducción a las técnicas No Supervisadas, en particular, reducción de dimensión a través del análisis de componentes principales y la clasificación automática a través del análisis de clústers.