El texto crudo es inutilizable directamente por los modelos: contiene ruido (HTML, caracteres especiales, URLs), palabras irrelevantes (stopwords), variantes morfológicas de la misma raíz y representaciones densas ineficientes.
El texto crudo es inutilizable directamente por los modelos: contiene ruido (HTML, caracteres especiales, URLs), palabras irrelevantes (stopwords), variantes morfológicas de la misma raíz y representaciones densas ineficientes. Un pipeline robusto es el paso previo a cualquier modelo NLP.
Pipeline modular y reproducible con spaCy y NLTK: limpieza → tokenización → lematización → eliminación de stopwords → vectorización (TF-IDF, Word2Vec). Cada paso es configurable y se evalúa su impacto en la calidad del modelo downstream.