Large Reasoning Models: Kollaps und kontraintuitive Skalierung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

2025-06-08

Jüngste Generationen von großen Sprachmodellen (LLMs) haben Large Reasoning Models (LRMs) hervorgebracht, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. Obwohl diese Modelle verbesserte Leistungen bei Reasoning-Benchmarks zeigen, bleiben ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Einschränkungen unzureichend verstanden. Diese Arbeit untersucht LRMs mithilfe kontrollierbarer Puzzle-Umgebungen und zeigt einen vollständigen Genauigkeitskollaps jenseits einer bestimmten Komplexitätsschwelle. Überraschenderweise steigt der Denkaufwand mit der Komplexität, nimmt dann aber trotz eines ausreichenden Token-Budgets ab. Im Vergleich zu Standard-LLMs zeigten sich drei Regime: (1) Aufgaben mit geringer Komplexität, bei denen Standard-LLMs LRMs übertreffen, (2) Aufgaben mit mittlerer Komplexität, bei denen LRMs einen Vorteil zeigen, und (3) Aufgaben mit hoher Komplexität, bei denen beide scheitern. LRMs weisen Einschränkungen bei der exakten Berechnung auf, können keine expliziten Algorithmen verwenden und argumentieren inkonsistent. Diese Studie beleuchtet die Stärken, Schwächen und entscheidenden Fragen bezüglich der wahren Argumentationsfähigkeiten von LRMs.