강화 학습 없이 LLM 파인튜닝: 직접 선호도 최적화(DPO) 소개

2025-05-28

Together 플랫폼은 이제 강화 학습 없이도 언어 모델을 사람의 선호도에 맞추는 기술인 직접 선호도 최적화(DPO)를 지원합니다. DPO는 프롬프트, 선호하는 응답, 선호하지 않는 응답을 포함하는 선호도 데이터로 모델을 직접 학습시켜 더 유용하고, 정확하며, 맞춤화된 AI 어시스턴트를 만듭니다. 기존 강화 학습 방식과 비교하여 DPO는 더 간단하고, 효율적이며, 구현이 용이합니다. 이 글에서는 DPO의 작동 방식, 사용 방법, 코드 예제를 자세히 설명하고, 먼저 지도 학습 파인튜닝(SFT)을 수행한 다음 DPO로 미세 조정하는 것을 권장합니다.

더 보기

DeepCoder-14B: OpenAI의 o3-mini에 필적하는 오픈소스 코드 추론 모델

2025-04-09
DeepCoder-14B: OpenAI의 o3-mini에 필적하는 오픈소스 코드 추론 모델

Agentica와 Together AI는 Deepseek-R1-Distilled-Qwen-14B로부터 분산 강화 학습을 통해 미세 조정된 코드 추론 모델인 DeepCoder-14B-Preview를 공개했습니다. LiveCodeBench에서 60.6%의 Pass@1 정확도를 달성하여 14B 매개변수만으로 OpenAI의 o3-mini에 필적하는 성능을 보여줍니다. 이 프로젝트는 데이터 세트, 코드, 훈련 로그, 시스템 최적화를 오픈소스로 공개하며, 고품질 데이터와 GRPO에 대한 알고리즘 개선에 기반한 강력한 훈련 레시피를 제시합니다. 이러한 발전으로 고성능 코드 생성 모델에 대한 접근이 민주화됩니다.

더 보기