Clasificación de sentimientos en tweets políticos

Problema

Los tweets sobre las elecciones de EEUU de 2016 presentan un lenguaje muy específico: hashtags, menciones, URLs, jerga política y abreviaciones que hacen el preprocesamiento especialmente crítico. La calidad del texto limpio determina directamente la calidad del clasificador de sentimiento.

Solución

Pipeline de clasificación de sentimientos con foco en el preprocesamiento: limpieza avanzada de tweets (hashtags, menciones, URLs, stopwords) → tokenización → extracción de features → modelo de clasificación. El enfoque está en demostrar el impacto del preprocesamiento en la clasificación real.

Preprocesamiento específico para tweets

Limpieza de texto de Twitter: eliminación de hashtags, menciones (@), URLs y caracteres especiales
Tokenización con NLTK: segmentación y normalización adaptada al lenguaje informal
Eliminación de stopwords en inglés con lista customizada para contexto político
WordCloud de las palabras más frecuentes por sentimiento — visualización del vocabulario clave

Clasificación y evaluación

Extracción de features: bag-of-words y TF-IDF sobre el texto preprocesado
Modelos de clasificación de sentimiento positivo/negativo sobre los tweets políticos
Matrices de confusión y métricas de clasificación para evaluar el rendimiento
Análisis de errores: tweets que el modelo clasifica incorrectamente y por qué

Clasificación de sentimientos en tweets políticos

Problema

Solución

Preprocesamiento específico para tweets

Clasificación y evaluación

Pipeline de limpieza y tratamiento de nulos

Anonimización de datos sensibles