📈 Estadística para DS
📈 Estadística para DS

Bootstrap e intervalos de confianza

Muchos estimadores estadísticos (mediana, ratio, correlación, diferencia de medianas) no tienen fórmulas analíticas cerradas para sus intervalos de confianza.

Problema

Muchos estimadores estadísticos (mediana, ratio, correlación, diferencia de medianas) no tienen fórmulas analíticas cerradas para sus intervalos de confianza. Las suposiciones paramétricas (normalidad, n grande) no siempre se cumplen. Se necesita un método no paramétrico general.

Solución

Bootstrap: remuestreo con reemplazamiento para estimar la distribución muestral de cualquier estadístico sin asumir ninguna distribución. Se generan miles de muestras bootstrap, se calcula el estadístico en cada una y se obtiene el IC a partir de los percentiles de esa distribución.

Metodología bootstrap

  • Principio: la muestra observada es la mejor estimación de la población
  • Proceso: B remuestras con reemplazamiento → calcular estadístico en cada una → distribución bootstrap
  • IC percentil: percentil α/2 y 1-α/2 de los B valores bootstrapeados
  • IC BCa (Bias-Corrected and accelerated): corrige sesgo y asimetría — más preciso

Aplicaciones prácticas

  • IC de la mediana: no existe fórmula analítica estándar — bootstrap es la solución
  • IC de un ratio: numerador / denominador ambos inciertos
  • Comparación de medianas entre dos grupos: diferencia de medianas con IC
  • IC del coeficiente de correlación: alternativa a la transformación de Fisher
  • Validación de modelos ML: IC del AUC, accuracy y F1 mediante bootstrap del test set

Más proyectos en Estadística para DS