Lab
🎮 3 proyectos

Aprendizaje por Refuerzo

Agentes que aprenden por recompensa: Q-learning tabular, DQN con TF/Keras y PPO con Stable Baselines3.

Problema

Los problemas de decisión secuencial — donde la acción de hoy afecta las opciones de mañana — no se pueden resolver con regresión ni clasificación. El aprendizaje por refuerzo es el paradigma donde un agente aprende a maximizar recompensa acumulada a través de ensayo y error en un entorno, sin supervisión directa.

Solución

Tres aproximaciones complementarias: Q-learning tabular implementado desde cero en Taxi-v3, DQN construido con TensorFlow/Keras para espacios de estados continuos en CartPole, y PPO vía Stable Baselines3 para entrenar con algoritmos modernos de policy gradient sin implementar el algoritmo manualmente.

Más áreas