O Desafio de Escalabilidade do Aprendizado por Reforço: O Q-Learning Pode Lidar com Horizontes Longos?

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-06-15

Nos últimos anos, muitos objetivos de aprendizado de máquina atingiram escalabilidade, como previsão do próximo token, difusão de ruído e aprendizado contrastivo. No entanto, o aprendizado por reforço (RL), particularmente o RL fora da política baseado em Q-learning, enfrenta desafios na escalabilidade para problemas complexos de longo horizonte. Este artigo argumenta que os algoritmos existentes de Q-learning lutam com problemas que exigem mais de 100 etapas de decisão semântica devido ao acúmulo de vieses em alvos de previsão. Experimentos mostram que, mesmo com dados abundantes e variáveis controladas, os algoritmos padrão de RL fora da política não conseguem resolver tarefas complexas. No entanto, a redução do horizonte melhora significativamente a escalabilidade, sugerindo a necessidade de algoritmos melhores que abordem diretamente o problema do horizonte, em vez de depender apenas do aumento de dados e poder computacional.