Generación de contenido multimodal con LLMs y modelos generativos aplicados a producto.
Generar contenido nuevo — imágenes, texto, audio — que sea indistinguible o funcionalmente equivalente a datos reales. Las GANs resuelven la generación de imágenes mediante adversarialidad; los LLMs resuelven la generación de texto mediante predicción de tokens. Combinar ambos en pipelines multimodales es el siguiente nivel.
DCGAN (Deep Convolutional GAN) para generación de imágenes en MNIST y CIFAR-10: generador que aprende a producir samples realistas y discriminador que aprende a distinguirlos. Pipelines multimodales que combinan texto (LLMs), audio (Bark) e imagen (tiny-SD) servidos con FastAPI y Streamlit. Prompt engineering sistemático para traducción automática y control preciso del output.
Generar imágenes sintéticas que sigan la distribución del dataset de entrenamiento sin copiar muestr…
Ver proyecto →Los sistemas de generación monomodal (solo imagen, solo texto) no capturan la riqueza semántica de e…
Ver proyecto →Los LLMs producen outputs muy distintos dependiendo de cómo se formule la instrucción. Sin una metod…
Ver proyecto →