Pipeline de limpieza y tratamiento de nulos

Problema

Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captura — y cada tipo de ausencia requiere un tratamiento diferente. Imputar todos los nulos con la media es una simplificación que introduce sesgos y puede arruinar el modelo.

Solución

Pipeline modular de limpieza con scikit-learn Pipeline: análisis del patrón de missingness por columna, estrategia de imputación diferenciada (SimpleImputer, KNNImputer o imputación por modelo), detección y tratamiento de outliers y validación de integridad.

Análisis de missingness

MCAR (Missing Completely At Random): nulos aleatorios — imputación simple válida
MAR (Missing At Random): nulos relacionados con otras variables observables — KNNImputer
MNAR (Missing Not At Random): nulos relacionados con el valor perdido — análisis de negocio
Visualización con missingno: mapa de calor de correlación entre nulos de distintas columnas

Tratamiento de outliers

IQR: outlier si x < Q1 - 1.5·IQR o x > Q3 + 1.5·IQR — robusto y simple
Z-score: outlier si |z| > 3 — asume normalidad
MAD (Median Absolute Deviation): más robusto que Z-score ante distribuciones sesgadas
Tratamiento: winsorización al percentil 1/99, log transform o eliminación según contexto

Pipeline de limpieza y tratamiento de nulos

Problema

Solución

Análisis de missingness

Tratamiento de outliers

Anonimización de datos sensibles

Feature engineering y data augmentation