Günstige Inferenzmodelle übertreffen Giganten: Logikrätsel mit Reinforcement Learning lösen

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Günstige Inferenzmodelle übertreffen Giganten: Logikrätsel mit Reinforcement Learning lösen

2025-03-06

Forscher nutzten Reinforcement Learning, um kleinere, kostengünstigere Open-Source-Sprachmodelle zu trainieren, die DeepSeek R1, OpenAI o1 und o3-mini im „Temporal Clue“-Reasoning-Spiel übertrafen und der Leistung von Anthropic Sonnet 3.7 sehr nahe kamen, während sie bei der Inferenz über 100-mal günstiger waren. Dies gelang durch sorgfältiges Task-Design, Hyperparameter-Tuning und die Verwendung des Group Relative Policy Optimization (GRPO)-Algorithmus und der Torchtune-Bibliothek. Die Studie zeigt das Potenzial von Reinforcement Learning, Open-Source-Modelle effizient für komplexe Deduktionsaufgaben zu trainieren, selbst mit begrenzten Daten, und erzielte signifikante Leistungsverbesserungen mit nur 16 Trainingsbeispielen.

(openpipe.ai)

Rust Lineare Algebra Bibliothek: lin-alg

Schlüsselmoleküle: Die stillen Architekten von Ökosystemen