Lab
🎨 3 proyectos

IA Generativa

Generación de contenido multimodal con LLMs y modelos generativos aplicados a producto.

Problema

Generar contenido nuevo — imágenes, texto, audio — que sea indistinguible o funcionalmente equivalente a datos reales. Las GANs resuelven la generación de imágenes mediante adversarialidad; los LLMs resuelven la generación de texto mediante predicción de tokens. Combinar ambos en pipelines multimodales es el siguiente nivel.

Solución

DCGAN (Deep Convolutional GAN) para generación de imágenes en MNIST y CIFAR-10: generador que aprende a producir samples realistas y discriminador que aprende a distinguirlos. Pipelines multimodales que combinan texto (LLMs), audio (Bark) e imagen (tiny-SD) servidos con FastAPI y Streamlit. Prompt engineering sistemático para traducción automática y control preciso del output.

Más áreas