Análisis de datos
Descricpión del curso
Esta asignatura presentará los conceptos básicos de pre-procesamiento y análisis descriptivo de datos.
El objetivo principal es poder determinar cuáles datos son susceptibles de ser convertidos en información para apoyar la toma de decisiones, y separar el ruido de la señal.
Es el primer paso en un proyecto de ciencia de datos.
Los estudiantes aprenderán a identificar las problemáticas que presentan los datos desde el momento de su registro (por ej., error muestral, outliers), así como usar las herramientas necesarias para describirlos (por ej., distribuciones e histogramas), explorarlos (por ej., agrupar o filtrar bajo un criterio específico), y cruzarlos (por ej., utilizando otras fuentes).
Asimismo, los estudiantes comprenderán que las etapas de este proceso no son lineales, sino que se benefician del diseño iterativo.
Objetivos de la asignatura (resultados de aprendizaje)
- Identificar las ventajas y desventajas de las herramientas computacionales utilizadas para el análisis de datos, utilizando lenguaje técnico afín.
- Recopilar y limpiar datos, en base a una propuesta de replicabilidad del proceso.
- Transformar y analizar datos, realizando preguntas clave para resolver problemas a partir del contexto en que se desarrollan.
- Modelar datos para extraer información y generar conclusiones basadas en evidencia.
- Identificar las buenas prácticas en el modelamiento de datos.
Contenidos
- Limpieza y estructura de datos. [Ses]
- Formateo de datos
- Transformación de datos
- ETL
- Regresión y predicción.
- Regresión lineal múltiple.
- Predicción usando regresión y los peligros de la extrapolación.
- Factores y variables categóricas en una regresión.
- Multicolinealidad, variables de confusión e interacciones.
- Diagnóstico de una regresión y supuestos (outliers, heterocedasticidad, no-normalidad, errores correlacionados y no-linealidad)
- Sesgos en los análisis: Paradoja de Simpson, Paradoja de Berkson y Collider Bias.
- Series de tiempo
- Búsqueda y reorganización de datos de series de tiempo
- Análisis de datos exploratorios para series temporales
- Histogramas, gráfico de dispersión y métodos exploratorios para series de tiempo
- Estacionariedad y raíz unitaria
- Autocorrelación y correlaciones espurias en series de tiempo
- Modelos estadísticos para series de tiempo
- ¿Por qué no utilizar una regresión lineal?
- Modelos autorregresivos (AR), ARIMA y Autorregresión vectorial (VAR)
- Ventajas y desventajas de los métodos estadísticos para series de tiempo