Pipeline de generación multimodal

Problema

Los sistemas de generación monomodal (solo imagen, solo texto) no capturan la riqueza semántica de entradas que combinan varias modalidades. Un sistema que genere o describa contenido a partir de múltiples señales (texto + imagen, imagen + audio) requiere integrar modelos especializados.

Solución

Pipeline que encadena modelos especializados por modalidad: captioning de imágenes con modelos vision-language, síntesis de imagen desde texto con modelos de difusión y generación de descripciones enriquecidas con LLMs que reciben contexto multimodal.

Componentes del pipeline

Image captioning: BLIP/LLaVA para generar descripciones textuales de imágenes
Text-to-image: Stable Diffusion para generar imágenes desde prompts de texto
LLM enrichment: GPT/Claude para enriquecer descripciones y generar prompts optimizados
Evaluación de coherencia semántica entre la entrada y la salida multimodal

Casos de uso evaluados

Imagen → descripción detallada → nueva imagen variante (ciclo imagen-texto-imagen)
Texto descriptivo → imagen → descripción revisada (evaluación de fidelidad)
Análisis del gap semántico entre la intención del prompt y el output generado

Problema

Solución

Componentes del pipeline

Casos de uso evaluados

Generador de imágenes con DCGAN

Prompt Engineering con LLMs