🔧 Preprocesamiento de Datos
🔧 Preprocesamiento de Datos

Pipeline de limpieza y tratamiento de nulos

Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captura — y cada tipo de ausencia requiere un tratamiento diferente.

Problema

Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captura — y cada tipo de ausencia requiere un tratamiento diferente. Imputar todos los nulos con la media es una simplificación que introduce sesgos y puede arruinar el modelo.

Solución

Pipeline modular de limpieza con scikit-learn Pipeline: análisis del patrón de missingness por columna, estrategia de imputación diferenciada (SimpleImputer, KNNImputer o imputación por modelo), detección y tratamiento de outliers y validación de integridad.

Análisis de missingness

  • MCAR (Missing Completely At Random): nulos aleatorios — imputación simple válida
  • MAR (Missing At Random): nulos relacionados con otras variables observables — KNNImputer
  • MNAR (Missing Not At Random): nulos relacionados con el valor perdido — análisis de negocio
  • Visualización con missingno: mapa de calor de correlación entre nulos de distintas columnas

Tratamiento de outliers

  • IQR: outlier si x < Q1 - 1.5·IQR o x > Q3 + 1.5·IQR — robusto y simple
  • Z-score: outlier si |z| > 3 — asume normalidad
  • MAD (Median Absolute Deviation): más robusto que Z-score ante distribuciones sesgadas
  • Tratamiento: winsorización al percentil 1/99, log transform o eliminación según contexto

Más proyectos en Preprocesamiento de Datos