Le Défi d'Éscalabilité de l'Apprentissage par Renforcement : Le Q-Learning Peut-il Gérer les Horizons Longs ?
Ces dernières années, de nombreux objectifs d'apprentissage automatique ont atteint une scalabilité impressionnante, comme la prédiction du jeton suivant, la diffusion de bruit et l'apprentissage contrastif. Cependant, l'apprentissage par renforcement (RL), en particulier le RL hors politique basé sur le Q-learning, rencontre des défis pour évoluer vers des problèmes complexes à long horizon. Cet article soutient que les algorithmes actuels de Q-learning ont du mal avec des problèmes nécessitant plus de 100 étapes de décision sémantiques en raison de l'accumulation de biais dans les cibles de prédiction. Des expériences montrent que même avec des données abondantes et des variables contrôlées, les algorithmes standard de RL hors politique ne peuvent pas résoudre des tâches complexes. Cependant, la réduction de l'horizon améliore considérablement l'évolutivité, suggérant la nécessité d'algorithmes plus performants qui traitent directement le problème de l'horizon, plutôt que de simplement compter sur l'augmentation des données et de la puissance de calcul.