🔧 Preprocesamiento de Datos
🔧 Preprocesamiento de Datos

Clasificación de sentimientos en tweets políticos

Los tweets sobre las elecciones de EEUU de 2016 presentan un lenguaje muy específico: hashtags, menciones, URLs, jerga política y abreviaciones que hacen el preprocesamiento especialmente crítico.

Problema

Los tweets sobre las elecciones de EEUU de 2016 presentan un lenguaje muy específico: hashtags, menciones, URLs, jerga política y abreviaciones que hacen el preprocesamiento especialmente crítico. La calidad del texto limpio determina directamente la calidad del clasificador de sentimiento.

Solución

Pipeline de clasificación de sentimientos con foco en el preprocesamiento: limpieza avanzada de tweets (hashtags, menciones, URLs, stopwords) → tokenización → extracción de features → modelo de clasificación. El enfoque está en demostrar el impacto del preprocesamiento en la clasificación real.

Preprocesamiento específico para tweets

  • Limpieza de texto de Twitter: eliminación de hashtags, menciones (@), URLs y caracteres especiales
  • Tokenización con NLTK: segmentación y normalización adaptada al lenguaje informal
  • Eliminación de stopwords en inglés con lista customizada para contexto político
  • WordCloud de las palabras más frecuentes por sentimiento — visualización del vocabulario clave

Clasificación y evaluación

  • Extracción de features: bag-of-words y TF-IDF sobre el texto preprocesado
  • Modelos de clasificación de sentimiento positivo/negativo sobre los tweets políticos
  • Matrices de confusión y métricas de clasificación para evaluar el rendimiento
  • Análisis de errores: tweets que el modelo clasifica incorrectamente y por qué

Más proyectos en Preprocesamiento de Datos