Implementar un agente de RL con algoritmos modernos de policy gradient sin escribir el algoritmo desde cero: PPO (Proximal Policy Optimization) resuelve el problema de los pasos de actualización demasiado grandes que desestabilizan el aprendizaje en policy gradient clásico.
Implementar un agente de RL con algoritmos modernos de policy gradient sin escribir el algoritmo desde cero: PPO (Proximal Policy Optimization) resuelve el problema de los pasos de actualización demasiado grandes que desestabilizan el aprendizaje en policy gradient clásico.
PPO vía Stable Baselines3: entrenamiento sobre CartPole-v1 con 100k timesteps, función de evaluación propia para medir rendimiento en episodios de prueba, y grabación de vídeo del agente entrenado para visualizar el comportamiento de la política aprendida.