Preprocesamiento de Datos

Problema

Los datos crudos son el mayor enemigo de un modelo ML: valores nulos, outliers, PII sin anonimizar, features irrelevantes, escalas inconsistentes y clases desbalanceadas. Un modelo entrenado sobre datos mal preparados falla siempre, sin importar lo sofisticado que sea el algoritmo.

Solución

Pipelines de preprocesamiento modulares: anonimización geográfica de datos Airbnb, imputación de nulos con STL para series temporales de producción eléctrica, feature engineering sobre problemas de competición (Kaggle), data augmentation con SMOTE para clases desbalanceadas, y preprocesamiento de texto para clasificación de sentimientos.

Proyectos

Pipeline de limpieza y tratamiento de nulos

Los datos reales tienen nulos por distintas razones — sensor apagado, campo opcional, error de captu…

Ver proyecto →

Anonimización de datos sensibles

Los datasets reales contienen PII (Personally Identifiable Information): nombres, emails, DNIs, telé…

Ver proyecto →

Feature engineering y data augmentation

Dos problemas de clasificación con características de datos distintas: predicción de catástrofes en …

Ver proyecto →

Clasificación de sentimientos en tweets políticos

Los tweets sobre las elecciones de EEUU de 2016 presentan un lenguaje muy específico: hashtags, menc…

Ver proyecto →

Análisis de opiniones y visualización con WordCloud

Un corpus de opiniones con contenido positivo y negativo necesita ser preprocesado antes de ser anal…

Ver proyecto →

Problema

Solución

Proyectos

Deep Learning

Machine Learning