Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captura — y cada tipo de ausencia requiere un tratamiento diferente.
Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captura — y cada tipo de ausencia requiere un tratamiento diferente. Imputar todos los nulos con la media es una simplificación que introduce sesgos y puede arruinar el modelo.
Pipeline modular de limpieza con scikit-learn Pipeline: análisis del patrón de missingness por columna, estrategia de imputación diferenciada (SimpleImputer, KNNImputer o imputación por modelo), detección y tratamiento de outliers y validación de integridad.