Agentes que aprenden por recompensa: Q-learning tabular, DQN con TF/Keras y PPO con Stable Baselines3.
Los problemas de decisión secuencial — donde la acción de hoy afecta las opciones de mañana — no se pueden resolver con regresión ni clasificación. El aprendizaje por refuerzo es el paradigma donde un agente aprende a maximizar recompensa acumulada a través de ensayo y error en un entorno, sin supervisión directa.
Tres aproximaciones complementarias: Q-learning tabular implementado desde cero en Taxi-v3, DQN construido con TensorFlow/Keras para espacios de estados continuos en CartPole, y PPO vía Stable Baselines3 para entrenar con algoritmos modernos de policy gradient sin implementar el algoritmo manualmente.
Aprender a conducir un taxi en una cuadrícula: recoger pasajeros y dejarlos en el destino correcto m…
Ver proyecto →Q-learning tabular es inviable cuando el espacio de estados es continuo o de alta dimensión. CartPol…
Ver proyecto →Implementar un agente de RL con algoritmos modernos de policy gradient sin escribir el algoritmo des…
Ver proyecto →