🎨 IA Generativa
🎨 IA Generativa

Pipeline de generación multimodal

Los sistemas de generación monomodal (solo imagen, solo texto) no capturan la riqueza semántica de entradas que combinan varias modalidades.

Problema

Los sistemas de generación monomodal (solo imagen, solo texto) no capturan la riqueza semántica de entradas que combinan varias modalidades. Un sistema que genere o describa contenido a partir de múltiples señales (texto + imagen, imagen + audio) requiere integrar modelos especializados.

Solución

Pipeline que encadena modelos especializados por modalidad: captioning de imágenes con modelos vision-language, síntesis de imagen desde texto con modelos de difusión y generación de descripciones enriquecidas con LLMs que reciben contexto multimodal.

Componentes del pipeline

  • Image captioning: BLIP/LLaVA para generar descripciones textuales de imágenes
  • Text-to-image: Stable Diffusion para generar imágenes desde prompts de texto
  • LLM enrichment: GPT/Claude para enriquecer descripciones y generar prompts optimizados
  • Evaluación de coherencia semántica entre la entrada y la salida multimodal

Casos de uso evaluados

  • Imagen → descripción detallada → nueva imagen variante (ciclo imagen-texto-imagen)
  • Texto descriptivo → imagen → descripción revisada (evaluación de fidelidad)
  • Análisis del gap semántico entre la intención del prompt y el output generado

Más proyectos en IA Generativa