Aprender a conducir un taxi en una cuadrícula: recoger pasajeros y dejarlos en el destino correcto minimizando pasos, sin conocer las reglas del entorno de antemano.
Aprender a conducir un taxi en una cuadrícula: recoger pasajeros y dejarlos en el destino correcto minimizando pasos, sin conocer las reglas del entorno de antemano. El agente descubre la política óptima únicamente a partir de recompensas positivas/negativas por ensayo y error.
Q-learning tabular implementado desde cero con una clase QLearningAgent. El agente mantiene una Q-tabla que estima el valor esperado de cada acción en cada estado, actualizada con la ecuación de Bellman. Se compara ε-greedy con decaimiento de epsilon frente a epsilon constante para analizar el impacto en la convergencia.