Proyectos
🏆 Mejor TFM Data Science 2024 · MIOTI
Data & Analytics Académico

Emote Predictor & Recommender

Predicción de disponibilidad futura y recomendación por similitud multimodal sobre contenido dinámico.

76% accuracyMultimodal MLSimilarity MatrixXGBoost + Optuna

Dos sistemas de ML sobre contenido dinámico: uno anticipa cuándo vuelve un ítem, el otro identifica similitud real más allá de la metadata tradicional.

Aplicado sobre un dataset real con comportamiento de usuarios y rotación dinámica de contenido.

Predictor — Problema

  • El contenido rota sin patrón explícito. El usuario no sabe cuándo volverá un ítem y toma decisiones sin información.

Predictor — Cómo funciona

  • Clasifica la reaparición en 4 horizontes temporales: próximo mes · 2–3 meses · 4–6 meses · +6 meses.
  • Entrenado sobre datos históricos reales de rotación, enriquecidos con contexto: frecuencia, recurrencia y características del ítem.
  • Modelo: XGBoost optimizado con Optuna (maximizando F1-score).
  • Experimentación y trazabilidad con MLFlow.
  • Resultado: ~76% de precisión · ~3% de error grave.
  • Insight: sin contexto ampliado, el modelo no captura patrones reales de rotación.
  • Patrón equivalente a problemas de reposición en e-commerce, disponibilidad en marketplaces y rotación en plataformas de contenido.

Recomendador — Problema

  • La similitud real entre ítems no se puede capturar solo con metadata.
  • El sistema recomienda contenido en función de cómo se comporta y qué transmite, no solo de cómo está descrito.

Recomendador — Señales multimodales

  • Movimiento: keypoints frame a frame con MMPose → métricas de coordinación, ritmo, velocidad y expresividad.
  • Audio: extracción de features con Librosa (BPM, energía, estructura) · enriquecimiento con Shazam y Audd.
  • Semántica visual: generación de captions con Azure Computer Vision · enriquecimiento semántico con Gemini API.
  • Objetos en escena: detección con YOLOv8.

Recomendador — Pipeline técnico

  • Normalización y estandarización para hacer comparables métricas heterogéneas (movimiento, audio, features visuales).
  • Conversión de captions a embeddings semánticos con Sentence-BERT.
  • Cálculo de similitud: distancia euclidiana para features numéricas y similitud de coseno para embeddings semánticos.
  • Construcción de una matriz de similitud multimodal ponderada, donde cada dimensión aporta con pesos específicos según el tipo de contenido.

Recomendador — Resultado

  • Sistema de recomendación que identifica similitud real entre ítems, integrando movimiento, audio, semántica y objetos en una única representación comparable.

Más proyectos