QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

2025-03-05
QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

연구원들은 대규모 언어 모델(LLM)에서 강화 학습(RL)의 확장에 있어 획기적인 돌파구를 마련했습니다. 320억 개의 파라미터를 가진 QwQ-32B 모델은 6710억 개의 파라미터(활성화 파라미터 370억 개)를 가진 DeepSeek-R1과 비슷한 성능을 보여주며, 강력한 기반 모델에 RL을 적용한 효과를 보여줍니다. Apache 2.0 라이선스 하에 Hugging Face와 ModelScope에서 오픈소스로 공개된 QwQ-32B는 수학적 추론, 코딩, 일반적인 문제 해결에서 뛰어난 성능을 발휘합니다. 향후 연구는 장기적인 추론을 위한 RL과 에이전트 통합에 초점을 맞춰 인공 일반 지능(AGI)으로 가는 길을 열어갈 것입니다.

AI