Aprendizaje por Refuerzo

Problema

Los problemas de decisión secuencial — donde la acción de hoy afecta las opciones de mañana — no se pueden resolver con regresión ni clasificación. El aprendizaje por refuerzo es el paradigma donde un agente aprende a maximizar recompensa acumulada a través de ensayo y error en un entorno, sin supervisión directa.

Solución

Tres aproximaciones complementarias: Q-learning tabular implementado desde cero en Taxi-v3, DQN construido con TensorFlow/Keras para espacios de estados continuos en CartPole, y PPO vía Stable Baselines3 para entrenar con algoritmos modernos de policy gradient sin implementar el algoritmo manualmente.

Proyectos

Agente Q-learning en Taxi-v3

Aprender a conducir un taxi en una cuadrícula: recoger pasajeros y dejarlos en el destino correcto m…

Ver proyecto →

DQN desde cero en CartPole

Q-learning tabular es inviable cuando el espacio de estados es continuo o de alta dimensión. CartPol…

Ver proyecto →

PPO con Stable Baselines3 en CartPole

Implementar un agente de RL con algoritmos modernos de policy gradient sin escribir el algoritmo des…

Ver proyecto →

Problema

Solución

Proyectos

Deep Learning

Machine Learning