💬 NLP
💬 NLP

Clasificación multi-etiqueta de posts de StackOverflow

Clasificar automáticamente preguntas de StackOverflow con múltiples etiquetas (Python, JavaScript, CSS, etc.

Problema

Clasificar automáticamente preguntas de StackOverflow con múltiples etiquetas (Python, JavaScript, CSS, etc.) a partir del texto de la pregunta. Con 100 etiquetas posibles y la posibilidad de que una pregunta tenga varias simultáneamente, es un problema de clasificación multi-etiqueta no trivial.

Solución

Sistema de clasificación multi-etiqueta en dos partes: preprocesamiento del texto (tokenización, eliminación de stopwords, TF-IDF) y entrenamiento de modelos scikit-learn configurados para multi-etiqueta. Evaluación con métricas apropiadas para clasificación multi-etiqueta.

Preprocesamiento para clasificación multi-etiqueta

  • Limpieza de texto de StackOverflow: HTML, código, stopwords en inglés con NLTK
  • Tokenización y normalización para construir features de texto limpios
  • TF-IDF con vocabulario limitado a los términos más relevantes para las 100 etiquetas
  • Representación multi-etiqueta: matriz binaria de etiquetas (n_muestras × 100_etiquetas)

Modelos y evaluación multi-etiqueta

  • Clasificadores scikit-learn configurados para predicción multi-etiqueta (OneVsRest)
  • Dataset con 100 etiquetas distintas — cada pregunta puede tener múltiples etiquetas simultáneas
  • Métricas multi-etiqueta: Hamming Loss, Jaccard Score, F1 micro/macro
  • Análisis de rendimiento por etiqueta: algunas etiquetas tienen más datos y predicen mejor

Más proyectos en NLP