Universidad Jorge Tadeo Lozano :: MINERÍA DE DATOS - Plan MAESTRÍA EN MODELADO Y SIMULACIÓN

Periodo académico 2024-1S

(010889) MINERÍA DE DATOS

Datos generales

Plan de estudios: 0492 - MAESTRÍA EN MODELADO Y SIMULACIÓN
Créditos: 3.0

Grupos

*Tabla información sobre los grupos de la asignatura*
Actividad	Grupo	Periodos	Horarios	Aula	Profesor/Tutor

No existen datos de grupos de esta asignatura, en este plan de estudios.

Contenidos

PROGRAMA DE LA ASIGNATURA

Presentación

El Análisis de Datos se refiere a la obtención de patrones o modelos matemáticos para la interpretación de datos. En este campo convergen la estadística, bases de datos y el aprendizaje automático.
El Aprendizaje Automático (Machine Learning) es el estudio de cómo construir sistemas de computación que aprendan y se adapten de la experiencia. De forma más concreta, se trata de crear programas capaces de construir modelos a partir de datos, provenientes de bases de datos convencionales o de datos no estructurados, en diversos tipos de problemas que incluyen de manera general el aprendizaje supervisado (predicción y clasificación) y no supervisado (agrupamiento, reducción de dimensiones, asociación), teniendo como meta optimizar la capacidad de generalizar comportamientos a nuevos conjuntos de datos. Incluyen técnicas de Inteligencia Artificial (IA), estadística y probabilidades, teoría de computación y optimización, y en general estrategias matemáticas y computacionales que permitan crear modelos adaptativos a partir de los datos.
Estas áreas están transformando la forma como las organizaciones en todos los sectores de la economía se administran. Ser capaz de comprender las tendencias y patrones en datos complejos es fundamental para el éxito de estas organizaciones.

Objetivo de Aprendizaje

Conocer y aprender técnicas de aprendizaje de máquina para analizar datos con el fin desarrollar aplicaciones que apoyen la toma de decisiones.

Contenidos Temáticos

PARTE I: Conceptos Básicos
¿Qué es aprendizaje de máquina? Aprendizaje supervisado (clasificación y predicción, incluyendo series temporales) y no supervisado (agrupamiento, reducción de dimensiones y asociación). Aplicaciones.
Minería de Datos. Proceso CRISP-DM

PARTE II: Herramientas de software
Herramientas de Aprendizaje Automático. R, Python, otros. Librerías para conexiones a bases de datos.
Laboratorio. Carga y pre-procesamiento de datos (normalización, escalamiento, imputación de datos, discretización, conversión de factores a variables binarias, etc)

PARTE III: Clasificación y Regresión de datos
Regresión. Regresión pesada (Risco, Lasso, Lars, Ransac, Elastic Net).
Laboratorio regresión.
Clasificación. Problemas de dos clases. Regresión logística. Bayes ingenuo. Análisis ROC. Problema Multi-clases.
Laboratorio Clasificación
Arboles de clasificación y regresión. Bosques aleatorios. Métodos de agregación: Adaboosting. Máquinas de soporte vectorial para clasificación y regresión.
Laboratorio de métodos avanzados de clasificación y regresión.

PARTE IV: Aprendizaje No supervisado
Agrupamiento de datos (Clustering). K-medias, K-medoides. Clusterización jerárquica. Clusterización espectral.
Laboratorio de agrupamiento.
Asociación. Algoritmo a priori. Reducción de dimensionalidad: análisis de componentes principales (ACP).

Bibliografía Básica Obligatoria

1. Mitchell, T. M. (1997). Machine learning. Computer Science Series (McGraw-Hill, Burr Ridge, 1997).
2. Richert, W. (2013). Building machine learning systems with python. Packt Publishing Ltd.
3. Raschka, Sebastian.Python Machine Learning. ISBN-10: 1783555130 .ISBN-13: 978-1783555130
4. Han, Jiawei.(2006). Data mining: Concepts and Techniques. Morgan Kaufman Publishers.
5. Hernández Orallo, J., Ramírez Quintana, M., Ferri Ramírez, C. (2004). Introducción a la Minería de Datos. Editorial Pearson.
6. Kantardzic, Mehmed. (2003). Data Mining concepts, models, methods and techniquees. Wiley-Interscience.
7. Witten, Ian H. (2011). Data mining : Practical machine learning tools and techniques Morgan Kaufmann Publishers.
8. Gareth James,Daniela Witten, Trevor Hastie, Robert Tibshirani (2014). An Introduction to Statistical Learning with Applications in R. Springer.