QwQ-32B: Skalierung von Reinforcement Learning zur Verbesserung des Schlussfolgerns in LLMs

2025-03-05
QwQ-32B: Skalierung von Reinforcement Learning zur Verbesserung des Schlussfolgerns in LLMs

Forscher haben einen Durchbruch bei der Skalierung von Reinforcement Learning (RL) für große Sprachmodelle (LLMs) erzielt. Ihr 32 Milliarden Parameter umfassendes Modell QwQ-32B zeigt eine vergleichbare Leistung wie das 671 Milliarden Parameter umfassende DeepSeek-R1 (mit 37 Milliarden aktivierten Parametern), was die Effektivität von RL bei robusten Basismodellen unterstreicht. QwQ-32B, Open Source auf Hugging Face und ModelScope unter der Apache 2.0 Lizenz, zeichnet sich durch mathematisches Schlussfolgern, Codierung und allgemeine Problemlösung aus. Zukünftige Arbeiten konzentrieren sich auf die Integration von Agenten mit RL für langfristiges Schlussfolgern und erweitern die Grenzen in Richtung Künstliche Allgemeine Intelligenz (AGI).

KI