O Desafio de Escalabilidade do Aprendizado por Reforço: O Q-Learning Pode Lidar com Horizontes Longos?
Nos últimos anos, muitos objetivos de aprendizado de máquina atingiram escalabilidade, como previsão do próximo token, difusão de ruído e aprendizado contrastivo. No entanto, o aprendizado por reforço (RL), particularmente o RL fora da política baseado em Q-learning, enfrenta desafios na escalabilidade para problemas complexos de longo horizonte. Este artigo argumenta que os algoritmos existentes de Q-learning lutam com problemas que exigem mais de 100 etapas de decisão semântica devido ao acúmulo de vieses em alvos de previsão. Experimentos mostram que, mesmo com dados abundantes e variáveis controladas, os algoritmos padrão de RL fora da política não conseguem resolver tarefas complexas. No entanto, a redução do horizonte melhora significativamente a escalabilidade, sugerindo a necessidade de algoritmos melhores que abordem diretamente o problema do horizonte, em vez de depender apenas do aumento de dados e poder computacional.