R1-Zero의 비밀: Oat 프레임워크를 사용한 LLM의 효율적인 정렬
2025-03-22
연구자들은 R1-Zero 유사 훈련의 비밀을 밝히는 논문, 모델 및 코드베이스를 발표했습니다. 그들은 고도로 모듈화되고 효율적인 LLM 강화 학습 프레임워크인 Oat를 개발하여 Qwen2.5와 같은 모델을 R1-Zero로 훈련했습니다. 연구에 따르면 적절한 기본 모델과 개선된 강화 학습 알고리즘(Dr. GRPO)이 중요하며, 일치하지 않는 템플릿과 질문 세트로 인한 편향된 최적화를 방지할 수 있습니다. 결과적으로 8개의 A100 GPU에서 단 27시간의 연산으로 최첨단 성능을 달성했습니다.
AI