QwQ-32B: Escalando RL para mejorar el razonamiento en LLM

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

QwQ-32B: Escalando RL para mejorar el razonamiento en LLM

2025-03-05

Los investigadores han logrado un avance en el escalado del aprendizaje por refuerzo (RL) para modelos de lenguaje grandes (LLM). Su modelo QwQ-32B, con 32 mil millones de parámetros, demuestra un rendimiento comparable al DeepSeek-R1 de 671 mil millones de parámetros (con 37 mil millones activados), destacando la eficacia del RL aplicado a modelos base robustos. QwQ-32B, de código abierto en Hugging Face y ModelScope bajo la licencia Apache 2.0, destaca en el razonamiento matemático, la codificación y la resolución de problemas generales. El trabajo futuro se centrará en la integración de agentes con RL para el razonamiento a largo plazo, ampliando los límites hacia la Inteligencia Artificial General (AGI).

(qwenlm.github.io)

50.000 dólares en una caja de zapatos: Una investigación profunda en un error bancario de una revista de moda

¿El gobierno del Reino Unido borra el documento que promueve el ADP de Apple?