Günstige Inferenzmodelle übertreffen Giganten: Logikrätsel mit Reinforcement Learning lösen

2025-03-06
Günstige Inferenzmodelle übertreffen Giganten: Logikrätsel mit Reinforcement Learning lösen

Forscher nutzten Reinforcement Learning, um kleinere, kostengünstigere Open-Source-Sprachmodelle zu trainieren, die DeepSeek R1, OpenAI o1 und o3-mini im „Temporal Clue“-Reasoning-Spiel übertrafen und der Leistung von Anthropic Sonnet 3.7 sehr nahe kamen, während sie bei der Inferenz über 100-mal günstiger waren. Dies gelang durch sorgfältiges Task-Design, Hyperparameter-Tuning und die Verwendung des Group Relative Policy Optimization (GRPO)-Algorithmus und der Torchtune-Bibliothek. Die Studie zeigt das Potenzial von Reinforcement Learning, Open-Source-Modelle effizient für komplexe Deduktionsaufgaben zu trainieren, selbst mit begrenzten Daten, und erzielte signifikante Leistungsverbesserungen mit nur 16 Trainingsbeispielen.

KI