Feintuning von LLMs ohne Reinforcement Learning: Einführung in Direct Preference Optimization (DPO)

2025-05-28

Die Together-Plattform unterstützt jetzt Direct Preference Optimization (DPO), eine Technik, um Sprachmodelle ohne Reinforcement Learning an menschliche Präferenzen anzupassen. DPO trainiert Modelle direkt mit Präferenzdaten – Prompts, bevorzugte Antworten und nicht bevorzugte Antworten – was zu hilfreicheren, genaueren und maßgeschneiderten KI-Assistenten führt. Im Vergleich zu traditionellen Reinforcement-Learning-Methoden ist DPO einfacher, effizienter und leichter zu implementieren. Dieser Beitrag beschreibt die Funktionsweise von DPO, die Verwendung und Codebeispiele und empfiehlt einen zweistufigen Ansatz: überwachtes Feintuning (SFT) gefolgt von DPO-Verfeinerung.

Mehr lesen

DeepCoder-14B: Open-Source Code-Reasoning-Modell erreicht Leistung von OpenAIs o3-mini

2025-04-09
DeepCoder-14B: Open-Source Code-Reasoning-Modell erreicht Leistung von OpenAIs o3-mini

Agentica und Together AI haben DeepCoder-14B-Preview veröffentlicht, ein Code-Reasoning-Modell, das durch verteiltes RL aus Deepseek-R1-Distilled-Qwen-14B feinabgestimmt wurde. Mit einer beeindruckenden Genauigkeit von 60,6 % Pass@1 auf LiveCodeBench konkurriert es mit OpenAIs o3-mini und verwendet dabei nur 14 B Parameter. Das Projekt veröffentlicht seinen Datensatz, Code, Trainingslogs und Systemoptimierungen als Open Source und zeigt ein robustes Trainingsrezept, das auf hochwertigen Daten und algorithmischen Verbesserungen von GRPO basiert. Dieser Fortschritt demokratisiert den Zugang zu leistungsstarken Code-Generierungsmodellen.

Mehr lesen