경량 GRPO 학습: Transformer 및 vLLM 불필요

2025-04-13
경량 GRPO 학습: Transformer 및 vLLM 불필요

이 프로젝트는 거의 처음부터 구축되었으며 토크나이저와 PyTorch에만 의존하는 경량 GRPO(Group Relative Policy Optimization) 학습 프레임워크를 구현합니다. KL 다이버전스를 제거하고 너무 긴 에피소드 필터링을 추가하여 원래 알고리즘을 개선하여 학습 안정성과 GPU 메모리 사용 효율을 높였습니다. 이 프로젝트는 Qwen2.5-3B-Instruct 모델을 CountDown 작업으로 학습시키는데, 이 작업은 주어진 숫자로부터 목표 값에 도달하는 수학적 표현을 생성해야 합니다. 모델은 최종 답변 전에 사고 연쇄 추론을 생성하는 것을 학습하여 이 문제를 해결합니다. 형식과 답변에 대한 보상으로 학습이 안내됩니다. 전체 프로세스는 간단하고 재현 가능하며, 단일 A40 GPU에서 최소한의 명령어로 실행할 수 있습니다.

개발