Vers le raisonnement de système 2 dans les LLMs : apprendre à penser avec Meta Chain-of-Thought

2025-01-10
Vers le raisonnement de système 2 dans les LLMs : apprendre à penser avec Meta Chain-of-Thought

Les chercheurs proposent un nouveau cadre, Meta Chain-of-Thought (Meta-CoT), qui étend la méthode Chain-of-Thought (CoT) traditionnelle en modélisant explicitement le raisonnement sous-jacent nécessaire pour arriver à un CoT particulier. Meta-CoT utilise la supervision de processus, la génération de données synthétiques et des algorithmes de recherche. L'article décrit un pipeline d'entraînement intégrant l'ajustement d'instructions avec des traces de recherche linéarisées et l'apprentissage par renforcement. Ce travail fournit une feuille de route pour activer Meta-CoT dans les LLMs, promettant un raisonnement plus puissant et plus humain en IA.