Periodo académico 2024-1S

(010785) MINERÍA DE DATOS Y APRENDIZAJE DE MÁQUINA

Datos generales

Grupos

Tabla información sobre los grupos de la asignatura
Actividad Grupo Periodos Horarios Aula Profesor/Tutor

No existen datos de grupos de esta asignatura, en este plan de estudios.

Contenidos

PROGRAMA DE LA ASIGNATURA

Presentación

El Análisis de Datos se refiere a la obtención de patrones o modelos matemáticos para la interpretación de datos. En este campo convergen la estadística, bases de datos y el aprendizaje automático.
El Aprendizaje Automático (Machine Learning) es el estudio de cómo construir sistemas de computación que aprendan y se adapten de la experiencia. De forma más concreta, se trata de crear programas capaces de construir modelos a partir de datos, provenientes de bases de datos convencionales o de datos no estructurados, en diversos tipos de problemas que incluyen de manera general el aprendizaje supervisado (predicción y clasificación) y no supervisado (agrupamiento, reducción de dimensiones, asociación), teniendo como meta optimizar la capacidad de generalizar comportamientos a nuevos conjuntos de datos. Incluyen técnicas de Inteligencia Artificial (IA), estadística y probabilidades, teoría de computación y optimización, y en general estrategias matemáticas y computacionales que permitan crear modelos adaptativos a partir de los datos.
Estas áreas están transformando la forma como las organizaciones en todos los sectores de la economía se administran. Ser capaz de comprender las tendencias y patrones en datos complejos es fundamental para el éxito de estas organizaciones.

Objetivo de Aprendizaje

Conocer y aprender técnicas de aprendizaje de máquina para analizar datos con el fin desarrollar aplicaciones que apoyen la toma de decisiones.

Contenidos Temáticos

PARTE I: Conceptos Básicos
¿Qué es aprendizaje de máquina? Aprendizaje supervisado (clasificación y predicción, incluyendo series temporales) y no supervisado (agrupamiento, reducción de dimensiones y asociación). Aplicaciones.
Minería de Datos. Proceso CRISP-DM

PARTE II: Herramientas de software
Herramientas de Aprendizaje Automático. R, Python, otros. Librerías para conexiones a bases de datos.
Laboratorio. Carga y pre-procesamiento de datos (normalización, escalamiento, imputación de datos, discretización, conversión de factores a variables binarias, etc)

PARTE III: Clasificación y Regresión de datos
Regresión. Regresión pesada (Risco, Lasso, Lars, Ransac, Elastic Net).
Laboratorio regresión.
Clasificación. Problemas de dos clases. Regresión logística. Bayes ingenuo. Análisis ROC. Problema Multi-clases.
Laboratorio Clasificación
Arboles de clasificación y regresión. Bosques aleatorios. Métodos de agregación: Adaboosting. Máquinas de soporte vectorial para clasificación y regresión.
Laboratorio de métodos avanzados de clasificación y regresión.

PARTE IV: Aprendizaje No supervisado
Agrupamiento de datos (Clustering). K-medias, K-medoides. Clusterización jerárquica. Clusterización espectral.
Laboratorio de agrupamiento.
Asociación. Algoritmo a priori. Reducción de dimensionalidad: análisis de componentes principales (ACP).

Bibliografía Básica Obligatoria

1. Mitchell, T. M. (1997). Machine learning. Computer Science Series (McGraw-Hill, Burr Ridge, 1997).
2. Richert, W. (2013). Building machine learning systems with python. Packt Publishing Ltd.
3. Raschka, Sebastian.Python Machine Learning. ISBN-10: 1783555130 .ISBN-13: 978-1783555130
4. Han, Jiawei.(2006). Data mining: Concepts and Techniques. Morgan Kaufman Publishers.
5. Hernández Orallo, J., Ramírez Quintana, M., Ferri Ramírez, C. (2004). Introducción a la Minería de Datos. Editorial Pearson.
6. Kantardzic, Mehmed. (2003). Data Mining concepts, models, methods and techniquees. Wiley-Interscience.
7. Witten, Ian H. (2011). Data mining : Practical machine learning tools and techniques Morgan Kaufmann Publishers.
8. Gareth James,Daniela Witten, Trevor Hastie, Robert Tibshirani (2014). An Introduction to Statistical Learning with Applications in R. Springer.

Resultado de Aprendizaje

Aplicar técnicas matemáticas y estadísticas para interpretar y analizar datos, extraer información significativa y proponer soluciones a problemas reales, desde la perspectiva moderna del aprendizaje automático y la Inteligencia Artificial

Medios Educativos

• Simuladores y laboratorios virtuales disponibles en AVATA
• El manejo de lenguajes de programación como R o Python.

Fecha de actualización

28/08/2023



Carrera 4 # 22-61 Teléfono: (+57 1) 242 7030 - 018000111022 Fax: (+57 1) 561 2107 Bogotá D.C., Colombia
Institución de Educación Superior sujeta a inspección y vigilancia por el Ministerio de Educación Nacional.