s1: Einfache Testzeit-Skalierung für starke Inferenzleistung
2025-02-03
Dieser Artikel stellt s1 vor, eine einfache Testzeit-Skalierungsmethode, die eine starke Inferenzleistung erreicht, die mit o1-preview mithalten kann, und zwar mit nur 1.000 Beispielen und Budget-Forcing. Die Methode verbessert die Leistung großer Sprachmodelle durch clevere Testzeit-Strategien deutlich. Der Code und die Daten sind Open Source, um die Reproduzierbarkeit und weitere Erforschung zu ermöglichen.