Lab
🔧 6 proyectos

Preprocesamiento de Datos

Preparación de datos para ML: limpieza, anonimización, feature engineering y análisis de texto.

Problema

Los datos crudos son el mayor enemigo de un modelo ML: valores nulos, outliers, PII sin anonimizar, features irrelevantes, escalas inconsistentes y clases desbalanceadas. Un modelo entrenado sobre datos mal preparados falla siempre, sin importar lo sofisticado que sea el algoritmo.

Solución

Pipelines de preprocesamiento modulares: anonimización geográfica de datos Airbnb, imputación de nulos con STL para series temporales de producción eléctrica, feature engineering sobre problemas de competición (Kaggle), data augmentation con SMOTE para clases desbalanceadas, y preprocesamiento de texto para clasificación de sentimientos.

Más áreas