Des modèles de raisonnement économiques surpassent les géants : Conquérir les casse-têtes logiques avec l’apprentissage par renforcement
Des chercheurs ont utilisé l’apprentissage par renforcement pour entraîner des modèles de langage open source plus petits et moins coûteux qui ont surpassé DeepSeek R1, OpenAI o1 et o3-mini, et ont presque égalé Anthropic Sonnet 3.7 dans un jeu de raisonnement complexe appelé « Indice temporel », tout en étant plus de 100 fois moins chers au moment de l’inférence. Ils y sont parvenus grâce à une conception minutieuse des tâches, au réglage des hyperparamètres et à l’utilisation de l’algorithme d’optimisation de politique relative de groupe (GRPO) et de la bibliothèque torchtune. Cette recherche démontre le potentiel de l’apprentissage par renforcement pour entraîner efficacement des modèles ouverts pour des tâches de déduction complexes, même avec des données limitées, obtenant des gains de performance significatifs avec seulement 16 exemples d’entraînement.
Lire plus