Estadística aplicada a datos reales: distribuciones, regresión, correlación e inferencia sobre datasets únicos.
Los modelos ML sin fundamentos estadísticos son cajas negras frágiles. Entender la distribución de los datos, construir intervalos de confianza con bootstrap, validar supuestos de regresión o analizar relaciones bivariadas entre variables de datasets reales es la diferencia entre ciencia de datos y ajuste de curvas a ciegas.
Estadística descriptiva sobre datos reales (tweets, mercado bursátil, aceitunas, PISA, Fortnite). Pruebas de normalidad (Shapiro-Wilk, Kolmogorov-Smirnov) y construcción de intervalos de confianza con bootstrap. Análisis bivariado con correlaciones y tests de asociación. Regresión lineal múltiple con OLS, diagnóstico de supuestos y métricas RMSE/R².
Describir un dataset sin estadística rigurosa lleva a conclusiones erróneas: la media es engañosa co…
Ver proyecto →Aplicar conceptos fundamentales de estadística y análisis de datos sobre un dataset real de activida…
Ver proyecto →Modelar la relación entre una variable continua y varios predictores con un modelo interpretable: cu…
Ver proyecto →Los emotes (bailes) de la tienda de Fortnite tienen características complejas que determinan su popu…
Ver proyecto →La correlación de Pearson solo detecta relaciones lineales y es sensible a outliers. Usar Pearson ci…
Ver proyecto →Muchos estimadores estadísticos (mediana, ratio, correlación, diferencia de medianas) no tienen fórm…
Ver proyecto →