Modèles de raisonnement à grande échelle : effondrement et mise à l’échelle contre-intuitive
Les modèles linguistiques de grande taille (LLM) récents ont donné naissance à des modèles de raisonnement à grande échelle (LRM), qui génèrent des traces de raisonnement détaillées avant de fournir des réponses. Bien qu’ils montrent des améliorations sur les benchmarks de raisonnement, leurs capacités fondamentales restent mal comprises. Ce travail étudie les LRM à l’aide d’environnements de casse-tête contrôlables, révélant un effondrement complet de la précision au-delà d’un certain seuil de complexité. Étonnamment, l’effort de raisonnement augmente avec la complexité, puis diminue malgré un budget de jetons suffisant. Comparés aux LLM standard, trois régimes ont émergé : (1) les tâches de faible complexité où les LLM standard surpassent les LRM, (2) les tâches de complexité moyenne où les LRM montrent un avantage, et (3) les tâches de haute complexité où les deux échouent. Les LRM présentent des limitations dans le calcul exact, ne parvenant pas à utiliser des algorithmes explicites et raisonnant de manière incohérente. Cette étude met en lumière les forces, les limites et les questions cruciales concernant les véritables capacités de raisonnement des LRM.