QwQ-32B: Escalando RL para mejorar el razonamiento en LLM
2025-03-05
Los investigadores han logrado un avance en el escalado del aprendizaje por refuerzo (RL) para modelos de lenguaje grandes (LLM). Su modelo QwQ-32B, con 32 mil millones de parámetros, demuestra un rendimiento comparable al DeepSeek-R1 de 671 mil millones de parámetros (con 37 mil millones activados), destacando la eficacia del RL aplicado a modelos base robustos. QwQ-32B, de código abierto en Hugging Face y ModelScope bajo la licencia Apache 2.0, destaca en el razonamiento matemático, la codificación y la resolución de problemas generales. El trabajo futuro se centrará en la integración de agentes con RL para el razonamiento a largo plazo, ampliando los límites hacia la Inteligencia Artificial General (AGI).
IA