QwQ-32B: Escalando RL para mejorar el razonamiento en LLM

2025-03-05
QwQ-32B: Escalando RL para mejorar el razonamiento en LLM

Los investigadores han logrado un avance en el escalado del aprendizaje por refuerzo (RL) para modelos de lenguaje grandes (LLM). Su modelo QwQ-32B, con 32 mil millones de parámetros, demuestra un rendimiento comparable al DeepSeek-R1 de 671 mil millones de parámetros (con 37 mil millones activados), destacando la eficacia del RL aplicado a modelos base robustos. QwQ-32B, de código abierto en Hugging Face y ModelScope bajo la licencia Apache 2.0, destaca en el razonamiento matemático, la codificación y la resolución de problemas generales. El trabajo futuro se centrará en la integración de agentes con RL para el razonamiento a largo plazo, ampliando los límites hacia la Inteligencia Artificial General (AGI).

IA