Die Skalierbarkeitsherausforderung beim Verstärkungslernen: Kann Q-Learning lange Horizonte bewältigen?

2025-06-15

In den letzten Jahren haben viele Ziele des maschinellen Lernens Skalierbarkeit erreicht, wie z. B. die Vorhersage des nächsten Tokens, Rauschentfernung und kontrastives Lernen. Verstärkungslernen (RL), insbesondere Off-Policy RL basierend auf Q-Learning, steht jedoch vor Herausforderungen bei der Skalierung auf komplexe Probleme mit langem Horizont. Dieser Artikel argumentiert, dass bestehende Q-Learning-Algorithmen mit Problemen zu kämpfen haben, die mehr als 100 semantische Entscheidungsschritte erfordern, aufgrund der Akkumulation von Verzerrungen in den Vorhersagezielen. Experimente zeigen, dass selbst bei umfangreichen Daten und kontrollierten Variablen Standard-Off-Policy-RL-Algorithmen komplexe Aufgaben nicht lösen können. Die Reduzierung des Horizonts verbessert jedoch die Skalierbarkeit deutlich, was auf die Notwendigkeit besserer Algorithmen hindeutet, die das grundlegende Horizontproblem direkt angehen, anstatt sich nur auf die Erhöhung von Daten und Rechenleistung zu verlassen.