Estadística para DS

Problema

Los modelos ML sin fundamentos estadísticos son cajas negras frágiles. Entender la distribución de los datos, construir intervalos de confianza con bootstrap, validar supuestos de regresión o analizar relaciones bivariadas entre variables de datasets reales es la diferencia entre ciencia de datos y ajuste de curvas a ciegas.

Solución

Estadística descriptiva sobre datos reales (tweets, mercado bursátil, aceitunas, PISA, Fortnite). Pruebas de normalidad (Shapiro-Wilk, Kolmogorov-Smirnov) y construcción de intervalos de confianza con bootstrap. Análisis bivariado con correlaciones y tests de asociación. Regresión lineal múltiple con OLS, diagnóstico de supuestos y métricas RMSE/R².

Proyectos

Estadística descriptiva y distribuciones

Describir un dataset sin estadística rigurosa lleva a conclusiones erróneas: la media es engañosa co…

Ver proyecto →

Introducción a estadística con datos de Twitter (2020)

Aplicar conceptos fundamentales de estadística y análisis de datos sobre un dataset real de activida…

Ver proyecto →

Regresión lineal múltiple

Modelar la relación entre una variable continua y varios predictores con un modelo interpretable: cu…

Ver proyecto →

Análisis de emotes de Fortnite: clustering y popularidad

Los emotes (bailes) de la tienda de Fortnite tienen características complejas que determinan su popu…

Ver proyecto →

Análisis de correlaciones y dependencias

La correlación de Pearson solo detecta relaciones lineales y es sensible a outliers. Usar Pearson ci…

Ver proyecto →

Bootstrap e intervalos de confianza

Muchos estimadores estadísticos (mediana, ratio, correlación, diferencia de medianas) no tienen fórm…

Ver proyecto →

Problema

Solución

Proyectos

Deep Learning

Machine Learning