Preparación de datos para ML: limpieza, anonimización, feature engineering y análisis de texto.
Los datos crudos son el mayor enemigo de un modelo ML: valores nulos, outliers, PII sin anonimizar, features irrelevantes, escalas inconsistentes y clases desbalanceadas. Un modelo entrenado sobre datos mal preparados falla siempre, sin importar lo sofisticado que sea el algoritmo.
Pipelines de preprocesamiento modulares: anonimización geográfica de datos Airbnb, imputación de nulos con STL para series temporales de producción eléctrica, feature engineering sobre problemas de competición (Kaggle), data augmentation con SMOTE para clases desbalanceadas, y preprocesamiento de texto para clasificación de sentimientos.
Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captu…
Ver proyecto →Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, telé…
Ver proyecto →Dos problemas de clasificación con características de datos distintas: predicción de catástrofes en …
Ver proyecto →Los tweets sobre las elecciones de EEUU de 2016 presentan un lenguaje muy específico: hashtags, menc…
Ver proyecto →Un corpus de opiniones con contenido positivo y negativo necesita ser preprocesado antes de ser anal…
Ver proyecto →