IA Generativa

Problema

Generar contenido nuevo — imágenes, texto, audio — que sea indistinguible o funcionalmente equivalente a datos reales. Las GANs resuelven la generación de imágenes mediante adversarialidad; los LLMs resuelven la generación de texto mediante predicción de tokens. Combinar ambos en pipelines multimodales es el siguiente nivel.

Solución

DCGAN (Deep Convolutional GAN) para generación de imágenes en MNIST y CIFAR-10: generador que aprende a producir samples realistas y discriminador que aprende a distinguirlos. Pipelines multimodales que combinan texto (LLMs), audio (Bark) e imagen (tiny-SD) servidos con FastAPI y Streamlit. Prompt engineering sistemático para traducción automática y control preciso del output.

Proyectos

Generador de imágenes con DCGAN

Generar imágenes sintéticas que sigan la distribución del dataset de entrenamiento sin copiar muestr…

Ver proyecto →

Pipeline de generación multimodal

Los sistemas de generación monomodal (solo imagen, solo texto) no capturan la riqueza semántica de e…

Ver proyecto →

Prompt Engineering con LLMs

Los LLMs producen outputs muy distintos dependiendo de cómo se formule la instrucción. Sin una metod…

Ver proyecto →

Problema

Solución

Proyectos

Deep Learning

Machine Learning