저렴한 추론 모델이 거대 모델을 능가하다: 강화 학습으로 논리 퍼즐 정복
2025-03-06
연구자들은 강화 학습을 사용하여 더 작고 저렴한 오픈소스 언어 모델을 훈련하여, '시간적 단서'라는 추론 중심 게임에서 DeepSeek R1, OpenAI의 o1, o3-mini를 능가하고 Anthropic의 Sonnet 3.7과 거의 비슷한 성능을 달성했습니다. 추론 비용은 100배 이상 절감되었습니다. 이는 신중한 작업 설계, 하이퍼파라미터 조정, 그룹 상대 정책 최적화(GRPO) 알고리즘 및 torchtune 라이브러리 사용 덕분입니다. 이 연구는 강화 학습이 제한된 데이터로도 복잡한 연역 작업에 대해 오픈 모델을 효율적으로 훈련할 수 있는 잠재력을 보여주며, 단 16개의 훈련 예시만으로도 상당한 성능 향상을 달성했습니다.
AI