📈 Estadística para DS
📈 Estadística para DS

Estadística descriptiva y distribuciones

Describir un dataset sin estadística rigurosa lleva a conclusiones erróneas: la media es engañosa con distribuciones sesgadas, la varianza no captura la forma de la distribución y comparar medias sin conocer la variabilidad puede inducir a decisiones equivocadas.

Problema

Describir un dataset sin estadística rigurosa lleva a conclusiones erróneas: la media es engañosa con distribuciones sesgadas, la varianza no captura la forma de la distribución y comparar medias sin conocer la variabilidad puede inducir a decisiones equivocadas.

Solución

Caracterización completa de distribuciones: medidas de tendencia central, dispersión, asimetría y curtosis. Contraste con distribuciones teóricas (normal, Poisson, exponencial) mediante tests de bondad de ajuste y visualizaciones Q-Q.

Medidas descriptivas

  • Tendencia central: media (sensible a outliers), mediana (robusta) y moda
  • Dispersión: varianza, desviación estándar, coeficiente de variación e IQR
  • Forma: asimetría (skewness) — cola derecha o izquierda — y curtosis (colas pesadas vs. ligeras)
  • Percentiles y deciles: descripción completa de la distribución por cuantiles

Distribuciones teóricas y tests

  • Shapiro-Wilk test de normalidad — para muestras < 5000
  • Kolmogorov-Smirnov test: comparación con cualquier distribución teórica
  • Q-Q plot: desviación visual de los cuantiles empíricos respecto a los teóricos
  • Ajuste de parámetros: MLE para estimar los parámetros de la distribución que mejor ajusta

Más proyectos en Estadística para DS