QwQ-32B: Skalierung von Reinforcement Learning zur Verbesserung des Schlussfolgerns in LLMs

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

QwQ-32B: Skalierung von Reinforcement Learning zur Verbesserung des Schlussfolgerns in LLMs

2025-03-05

Forscher haben einen Durchbruch bei der Skalierung von Reinforcement Learning (RL) für große Sprachmodelle (LLMs) erzielt. Ihr 32 Milliarden Parameter umfassendes Modell QwQ-32B zeigt eine vergleichbare Leistung wie das 671 Milliarden Parameter umfassende DeepSeek-R1 (mit 37 Milliarden aktivierten Parametern), was die Effektivität von RL bei robusten Basismodellen unterstreicht. QwQ-32B, Open Source auf Hugging Face und ModelScope unter der Apache 2.0 Lizenz, zeichnet sich durch mathematisches Schlussfolgern, Codierung und allgemeine Problemlösung aus. Zukünftige Arbeiten konzentrieren sich auf die Integration von Agenten mit RL für langfristiges Schlussfolgern und erweitern die Grenzen in Richtung Künstliche Allgemeine Intelligenz (AGI).

(qwenlm.github.io)

50.000 $ in einem Schuhkarton: Eine gründliche Untersuchung eines Bankfehlers in einer Modezeitschrift

Britische Regierung löscht Dokument zur Förderung von Apples ADP?