Webtagr - 기술 뉴스 다이제스트

인기 태그：

가상화 DNS 보안 형식적 검증 도달 가능성 분석 C언어 경제 컴파일러 오류 매크로 충돌 웹 확장 기능 개발 프레임워크 모든 태그

2025-05-28

Together 플랫폼은 이제 강화 학습 없이도 언어 모델을 사람의 선호도에 맞추는 기술인 직접 선호도 최적화(DPO)를 지원합니다. DPO는 프롬프트, 선호하는 응답, 선호하지 않는 응답을 포함하는 선호도 데이터로 모델을 직접 학습시켜 더 유용하고, 정확하며, 맞춤화된 AI 어시스턴트를 만듭니다. 기존 강화 학습 방식과 비교하여 DPO는 더 간단하고, 효율적이며, 구현이 용이합니다. 이 글에서는 DPO의 작동 방식, 사용 방법, 코드 예제를 자세히 설명하고, 먼저 지도 학습 파인튜닝(SFT)을 수행한 다음 DPO로 미세 조정하는 것을 권장합니다.

2025-04-09

DeepCoder-14B: OpenAI의 o3-mini에 필적하는 오픈소스 코드 추론 모델

Agentica와 Together AI는 Deepseek-R1-Distilled-Qwen-14B로부터 분산 강화 학습을 통해 미세 조정된 코드 추론 모델인 DeepCoder-14B-Preview를 공개했습니다. LiveCodeBench에서 60.6%의 Pass@1 정확도를 달성하여 14B 매개변수만으로 OpenAI의 o3-mini에 필적하는 성능을 보여줍니다. 이 프로젝트는 데이터 세트, 코드, 훈련 로그, 시스템 최적화를 오픈소스로 공개하며, 고품질 데이터와 GRPO에 대한 알고리즘 개선에 기반한 강력한 훈련 레시피를 제시합니다. 이러한 발전으로 고성능 코드 생성 모델에 대한 접근이 민주화됩니다.

강화 학습 없이 LLM 파인튜닝: 직접 선호도 최적화(DPO) 소개

DeepCoder-14B: OpenAI의 o3-mini에 필적하는 오픈소스 코드 추론 모델