QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

2025-03-05

Pesquisadores alcançaram um avanço no escalonamento do aprendizado por reforço (RL) para modelos de linguagem grandes (LLMs). Seu modelo QwQ-32B, com 32 bilhões de parâmetros, demonstra desempenho comparável ao DeepSeek-R1 de 671 bilhões de parâmetros (com 37 bilhões ativados), destacando a eficácia do RL aplicado a modelos base robustos. O QwQ-32B, de código aberto no Hugging Face e ModelScope sob a licença Apache 2.0, se destaca no raciocínio matemático, codificação e resolução de problemas gerais. Trabalhos futuros se concentrarão na integração de agentes com RL para raciocínio de longo prazo, expandindo os limites em direção à Inteligência Artificial Geral (AGI).

(qwenlm.github.io)

US$ 50.000 em uma caixa de sapatos: Uma investigação profunda em um erro bancário de uma revista de moda

Governo do Reino Unido apaga documento que promove o ADP da Apple?