El Desafío de Escalabilidad del Aprendizaje por Refuerzo: ¿Puede el Q-Learning Manejar Horizontes Largos?

2025-06-15

En los últimos años, muchos objetivos de aprendizaje automático han logrado escalabilidad, como la predicción del siguiente token, la difusión de ruido y el aprendizaje contrastivo. Sin embargo, el aprendizaje por refuerzo (RL), particularmente el RL fuera de política basado en Q-learning, enfrenta desafíos para escalar a problemas complejos de largo horizonte. Este artículo argumenta que los algoritmos existentes de Q-learning tienen dificultades con problemas que requieren más de 100 pasos de decisión semántica debido a la acumulación de sesgos en los objetivos de predicción. Los experimentos muestran que incluso con datos abundantes y variables controladas, los algoritmos estándar de RL fuera de política no pueden resolver tareas complejas. Sin embargo, la reducción del horizonte mejora significativamente la escalabilidad, lo que sugiere la necesidad de algoritmos mejores que aborden directamente el problema del horizonte, en lugar de depender únicamente del aumento de datos y potencia de cálculo.

IA