QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

2025-03-05
QwQ-32B: Escalonando RL para Aprimorar o Raciocínio em LLMs

Pesquisadores alcançaram um avanço no escalonamento do aprendizado por reforço (RL) para modelos de linguagem grandes (LLMs). Seu modelo QwQ-32B, com 32 bilhões de parâmetros, demonstra desempenho comparável ao DeepSeek-R1 de 671 bilhões de parâmetros (com 37 bilhões ativados), destacando a eficácia do RL aplicado a modelos base robustos. O QwQ-32B, de código aberto no Hugging Face e ModelScope sob a licença Apache 2.0, se destaca no raciocínio matemático, codificação e resolução de problemas gerais. Trabalhos futuros se concentrarão na integração de agentes com RL para raciocínio de longo prazo, expandindo os limites em direção à Inteligência Artificial Geral (AGI).

IA