ART: 최소한의 코드 변경으로 LLM 성능을 극대화하는 강화 학습 라이브러리

2025-04-30

Agent Reinforcement Trainer (ART)는 에이전트 워크플로우에서 대규모 언어 모델(LLM)의 성능을 향상시키기 위해 설계된 오픈소스 강화 학습 라이브러리입니다. 강력한 GRPO 알고리즘을 사용하여 모델 자체의 경험으로부터 학습합니다. 대부분의 RL 라이브러리와 달리 ART는 기존 코드베이스에 원활하게 통합되며 RL 학습 루프의 복잡성을 백엔드로 오프로드합니다. ART는 클라이언트(코드와 상호 작용)와 서버(추론 및 학습 담당)로 구성됩니다. 학습 루프에는 추론(데이터 수집 및 보상 할당)과 학습(GRPO를 사용하여 모델 학습 및 LoRA 업데이트)이 포함됩니다. ART는 vLLM/HuggingFace Transformers와 호환되는 대부분의 인과 언어 모델을 지원합니다. 현재 알파 버전이며, 기여를 환영합니다.

(github.com)

개발

구글 CEO, 데이터 공유 제안은 검색 엔진의 ‘사실상 분할’이라고 증언

DeepSeek-Prover-V2: 강화 학습을 통한 형식적 수학적 추론 발전