📈 Estadística para DS
📈 Estadística para DS

Regresión lineal múltiple

Modelar la relación entre una variable continua y varios predictores con un modelo interpretable: cuánto cambia la variable respuesta por cada unidad de cambio en cada predictor, controlando el resto.

Problema

Modelar la relación entre una variable continua y varios predictores con un modelo interpretable: cuánto cambia la variable respuesta por cada unidad de cambio en cada predictor, controlando el resto. Los coeficientes tienen que ser estadísticamente significativos y los supuestos del modelo, cumplidos.

Solución

Regresión por OLS (Ordinary Least Squares) con statsmodels para acceder a todos los estadísticos de inferencia: coeficientes, errores estándar, p-valores, intervalos de confianza, R², F-test y diagnóstico completo de supuestos.

Estimación e interpretación

  • OLS: minimización de la suma de cuadrados de residuos — solución analítica exacta
  • Coeficientes: cambio en Y por cada unidad de cambio en X_i, ceteris paribus
  • p-valor por coeficiente: test H₀: β_i = 0 — ¿es el predictor estadísticamente significativo?
  • IC 95% por coeficiente: rango plausible del efecto en la población
  • R² y R² ajustado: proporción de varianza explicada (ajustado penaliza por número de predictores)

Diagnóstico de supuestos

  • Linealidad: residuos vs. fitted values — no debe haber patrón
  • Homocedasticidad: Breusch-Pagan test — varianza constante de los residuos
  • Normalidad de residuos: Shapiro-Wilk + Q-Q plot
  • Independencia: Durbin-Watson test — ausencia de autocorrelación en residuos
  • Multicolinealidad: VIF por predictor — VIF > 10 indica problema

Más proyectos en Estadística para DS