Análisis de datos

Sitio web complementario con material curso Análisis de Datos

Descricpión del curso

Esta asignatura presentará los conceptos básicos de pre-procesamiento y análisis descriptivo de datos.

El objetivo principal es poder determinar cuáles datos son susceptibles de ser convertidos en información para apoyar la toma de decisiones, y separar el ruido de la señal.

  • Es el primer paso en un proyecto de ciencia de datos.

  • Los estudiantes aprenderán a identificar las problemáticas que presentan los datos desde el momento de su registro (por ej., error muestral, outliers), así como usar las herramientas necesarias para describirlos (por ej., distribuciones e histogramas), explorarlos (por ej., agrupar o filtrar bajo un criterio específico), y cruzarlos (por ej., utilizando otras fuentes).

  • Asimismo, los estudiantes comprenderán que las etapas de este proceso no son lineales, sino que se benefician del diseño iterativo.

Objetivos de la asignatura (resultados de aprendizaje)

  1. Identificar las ventajas y desventajas de las herramientas computacionales utilizadas para el análisis de datos, utilizando lenguaje técnico afín.
  2. Recopilar y limpiar datos, en base a una propuesta de replicabilidad del proceso.
  3. Transformar y analizar datos, realizando preguntas clave para resolver problemas a partir del contexto en que se desarrollan.
  4. Modelar datos para extraer información y generar conclusiones basadas en evidencia.
  5. Identificar las buenas prácticas en el modelamiento de datos.

Contenidos

  1. Limpieza y estructura de datos. [Ses]
    1. Formateo de datos
    2. Transformación de datos
    3. ETL
  2. Regresión y predicción.
    1. Regresión lineal múltiple.
    2. Predicción usando regresión y los peligros de la extrapolación.
    3. Factores y variables categóricas en una regresión.
    4. Multicolinealidad, variables de confusión e interacciones.
    5. Diagnóstico de una regresión y supuestos (outliers, heterocedasticidad, no-normalidad, errores correlacionados y no-linealidad)
    6. Sesgos en los análisis: Paradoja de Simpson, Paradoja de Berkson y Collider Bias.
  3. Series de tiempo
    1. Búsqueda y reorganización de datos de series de tiempo
    2. Análisis de datos exploratorios para series temporales
      1. Histogramas, gráfico de dispersión y métodos exploratorios para series de tiempo
      2. Estacionariedad y raíz unitaria
      3. Autocorrelación y correlaciones espurias en series de tiempo
    3. Modelos estadísticos para series de tiempo
      1. ¿Por qué no utilizar una regresión lineal?
      2. Modelos autorregresivos (AR), ARIMA y Autorregresión vectorial (VAR)
      3. Ventajas y desventajas de los métodos estadísticos para series de tiempo