💬 NLP
💬 NLP

Pipeline de preprocesamiento NLP

El texto crudo es inutilizable directamente por los modelos: contiene ruido (HTML, caracteres especiales, URLs), palabras irrelevantes (stopwords), variantes morfológicas de la misma raíz y representaciones densas ineficientes.

Problema

El texto crudo es inutilizable directamente por los modelos: contiene ruido (HTML, caracteres especiales, URLs), palabras irrelevantes (stopwords), variantes morfológicas de la misma raíz y representaciones densas ineficientes. Un pipeline robusto es el paso previo a cualquier modelo NLP.

Solución

Pipeline modular y reproducible con spaCy y NLTK: limpieza → tokenización → lematización → eliminación de stopwords → vectorización (TF-IDF, Word2Vec). Cada paso es configurable y se evalúa su impacto en la calidad del modelo downstream.

Etapas del pipeline

  • Limpieza: eliminación de HTML, URLs, emojis, caracteres especiales y normalización de Unicode
  • Tokenización con spaCy: segmentación en tokens respetando contracciones y puntuación
  • Lematización: reducción a forma base (corriendo → correr) preservando semántica
  • Eliminación de stopwords: lista base + customización con términos del dominio

Vectorización

  • Bag-of-Words: frecuencia de términos — baseline simple e interpretable
  • TF-IDF: peso por frecuencia relativa — penaliza términos muy comunes
  • Word2Vec: embeddings densos capturando similitud semántica
  • Impacto en el modelo: comparativa de accuracy downstream con cada representación

Más proyectos en NLP