QwQ-32B: LLM의 추론 능력 향상을 위한 강화 학습의 확장

2025-03-05

연구원들은 대규모 언어 모델(LLM)에서 강화 학습(RL)의 확장에 있어 획기적인 돌파구를 마련했습니다. 320억 개의 파라미터를 가진 QwQ-32B 모델은 6710억 개의 파라미터(활성화 파라미터 370억 개)를 가진 DeepSeek-R1과 비슷한 성능을 보여주며, 강력한 기반 모델에 RL을 적용한 효과를 보여줍니다. Apache 2.0 라이선스 하에 Hugging Face와 ModelScope에서 오픈소스로 공개된 QwQ-32B는 수학적 추론, 코딩, 일반적인 문제 해결에서 뛰어난 성능을 발휘합니다. 향후 연구는 장기적인 추론을 위한 RL과 에이전트 통합에 초점을 맞춰 인공 일반 지능(AGI)으로 가는 길을 열어갈 것입니다.

(qwenlm.github.io)

신발 상자에 담긴 5만 달러: 패션 잡지의 은행 업무 실수에 대한 심층 조사

영국 정부, 애플 ADP를 홍보하는 문서 삭제?