💬 NLP

Pipeline de preprocesamiento NLP

El texto crudo es inutilizable directamente por los modelos: contiene ruido (HTML, caracteres especiales, URLs), palabras irrelevantes (stopwords), variantes morfológicas de la misma raíz y representaciones densas ineficientes.

Problema

Solución

Pipeline modular y reproducible con spaCy y NLTK: limpieza → tokenización → lematización → eliminación de stopwords → vectorización (TF-IDF, Word2Vec). Cada paso es configurable y se evalúa su impacto en la calidad del modelo downstream.

Etapas del pipeline

Limpieza: eliminación de HTML, URLs, emojis, caracteres especiales y normalización de Unicode
Tokenización con spaCy: segmentación en tokens respetando contracciones y puntuación
Lematización: reducción a forma base (corriendo → correr) preservando semántica
Eliminación de stopwords: lista base + customización con términos del dominio

Vectorización

Bag-of-Words: frecuencia de términos — baseline simple e interpretable
TF-IDF: peso por frecuencia relativa — penaliza términos muy comunes
Word2Vec: embeddings densos capturando similitud semántica
Impacto en el modelo: comparativa de accuracy downstream con cada representación

Pipeline de preprocesamiento NLP

Problema

Solución

Etapas del pipeline

Vectorización

Transcripción Whisper y clasificación zero-shot

Chatbot conversacional con OpenAI API